学位论文 > 优秀研究生学位论文题录展示

H.264中运动估计的并行计算实现

作　者: 万双
导　师: 刘海华
学　校: 中南民族大学
专　业: 生物医学工程
关键词: H.264/AVC 并行计算 CUDA GPGPU 运动估计
分类号: TN919.81
类　型: 硕士论文
年　份: 2009年
下　载: 218次
引　用: 3次
阅　读: 论文下载

内容摘要

随着信息技术的快速发展,人们对信息的需求也随之增长,而视频信息因其直观的特点而被广泛采用,目前已经有多种针对视频压缩的国际标准,其中最新的视频标准是H.264/AVC视频压缩标准,该标准因其具有较高的压缩率而得到广泛的应用。然而,H.264/AVC视频标准的编码复杂度也是目前最高的,其编码结构除了继承传统的编码模块,还增加了很多新的模块,从而大幅度增加了运算量。因此,H.264/AVC研究的重点是如何加速编码的速度。以往的视频标准在运动估计时只采用1-2种大小的宏块,而H.264/AVC采用多种尺寸的宏块,从而使运动估计在其编码中所占运算量的比例进一步增加。因此,需要采用有效的结构或方法实现运动估计算法,从而加快编码速率。随着GPU(Graphic Processing Unit,图形处理器)的快速发展,越来越多的可并行处理的密集型运算被移植到GPU上。本文利用该平台,实现运动估计的并行处理,其创新点包括以下几个方面:(1)给出运动估计全搜索的并行实现算法。根据GPU多线程构架的特点,将每个宏块的运动估计运算放在256个线程中运行,可得到1024个8×8宏块的SAD值,并将这些SAD值组合成16×16等宏块的SAD值,最后进行并行搜索,得到最小SAD值。实验结果表明基于GPU的并行运动估计能较有效地提高编码速度。(2)给出了整数DCT(离散余弦变换)变换的并行实现算法。该算法仍利用GPU的多线程特点,对残差矩阵进行两次并行矩阵乘,而并行矩阵乘的关键是利用4×4个线程计算所对应的变换系数,其中只采用加法、减法和移位操作。实验表明该并行整数DCT变换算法相比基于CPU的整数DCT变换算法较有优势。为了进一步验证基于GPU进行并行编码的性能,本文搭建了基于X264开源编码器的实验平台,首先在X264编码器中配置可以编译CUDA代码的运行环境,然后将修改X264中的串行数据处理模式改为适合GPU处理的并行处理模式,再利用本文提出的运动估计并行算法改写X264中的相关代码,最后利用生成的执行文件对视频序列进行试验。试验结果表明利用GPU进行并行编码的运算速度是CPU上的1.5倍,且图像质量有所提高。综上所述:通过对H.264/AVC视频标准和GPU并行处理的深入分析,为提高编码的速度,提出了基于CUDA平台的并行运动估计算法和并行整数DCT变换算法,解决了H.264/AVC视频标准在编码高分辨率图像时的部分耗时问题。实验表明本文提出的并行运动估计算法和并行整数变换算法达到预期设计要求,所构建的H.264系统在一定程度上可实现视频的实时编码。

全文目录

摘要  8-9
ABSTRACT  9-11
第1章绪论  11-16
  1.1 背景与意义  11-12
  1.2 研究现状  12-15
    1.2.1 视频标准的发展历史和研究现状  12-13
    1.2.2 H.264 并行处理的研究现状  13-15
  1.3 论文的结构  15-16
第2章 H.264/AVC 视频编码  16-21
  2.1 H.264/AVC 视频编码标准概述  16
  2.2 H.264/AVC 的基本框架  16-18
    2.2.1 H.264/AVC 的档次划分  16-17
    2.2.2 分层结构  17
    2.2.3 H.264 的帧类型  17-18
  2.3 H.264/AVC 的关键技术  18-20
    2.3.1 帧间预测编码  18
    2.3.2 树状结构运动估计  18-19
    2.3.3 整数DCT 变换  19-20
  2.4 小结  20-21
第3章运动估计算法  21-25
  3.1 运功估计基本原理  21
  3.2 运动估计匹配准则  21-22
  3.3 部分经典的运动估计算法  22-24
    3.3.1 全搜索法  22
    3.3.2 菱形搜索法  22-24
  3.4 小结  24-25
第4章基于CUDA 的运功估计并行算法  25-35
  4.1 并行计算概念  25
  4.2 CUDA(Compute Unified Device Architecture 统一计算设备架构)  25-27
    4.2.1 CUDA 硬件模型  25-26
    4.2.2 CUDA 软件编程模型  26-27
  4.3 在CUDA 中的运动估计算法  27-34
    4.3.1 算法描述  27-28
    4.3.2 CUDA 中线程的处理  28-29
    4.3.3 CUDA 线程块的划分  29-30
    4.3.4 8×8 子块的SAD 计算  30-31
    4.3.5 最小SAD 在CUDA 中的并行搜索和存储  31-32
    4.3.6 DCT 变换在CUDA 中的计算  32
    4.3.7 实验结果  32-34
  4.4 小结  34-35
第5章基于H.264/AVC 开源库X264 的实验  35-49
  5.1 开源编码器的介绍  35-41
    5.1.1 X264 编码器关键技术介绍  36-37
    5.1.2 X264 编码流程分析  37-39
    5.1.3 X264 中运动估计运算用到的多媒体处理指令  39-41
  5.2 X264 中的运动估计在GPU 上并行算法描述  41-45
    5.2.1 算法的运行结构介绍  41-42
    5.2.2 算法的详细描述  42-45
  5.3 实验结果与分析  45-48
    5.3.1 实验平台介绍  45-46
    5.3.2 实验结果  46-48
  5.4 小结  48-49
第6章结束语  49-51
  6.1 工作总结  49
  6.2 今后工作的研究  49-51
参考文献  51-54
致谢  54-55
附录A 攻读学位期间所发表的学术论文目录  55

H.264中运动估计的并行计算实现

内容摘要

全文目录

相似论文