学位论文 > 优秀研究生学位论文题录展示

片上大规模并行嵌入式计算:层次结构性能模型及H.264并行加速

作 者: 陈胜刚
导 师: 陈书明
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: 片上大规模并行 高性能嵌入式计算 层次化体系结构 性能模型 H.264/AVC并行编码器 硬件加速
分类号: TN47
类 型: 博士论文
年 份: 2010年
下 载: 113次
引 用: 0次
阅 读: 论文下载
 

内容摘要


高性能嵌入式计算深入到现代社会生活、工业生产、军事应用等各个领域,深刻地影响着现代社会的发展。由于实时计算复杂度高、并行性强等原因,现代高性能嵌入式计算系统逐渐从传统的单线程计算模式进化为更体现应用特点的片上大规模并行嵌入式计算模式。然而,在片上大规模并行嵌入式计算中,微处理器体系结构和应用算法等诸方面均面临着新的挑战。以H.264/AVC为代表的高清实时视频压缩在消费电子和专业视频领域均有广泛的应用,其计算复杂度高、并行度高,是典型的高性能嵌入式计算和片上大规模并行嵌入式计算问题。对其进行案例研究不仅能够解决其本身所面临的挑战,而且能为解决其他片上大规模并行嵌入式计算问题的挑战提供思路。本文在对H.264/AVC中的数据相关性、计算复杂性和算法并行计算特性进行分析综述的基础上,对适合片上大规模并行嵌入式计算的层次结构性能模型、H.264/AVC编码器中的串行CABAC(Context-based Adaptive Binary ArithmeticCoding,基于上下文自适应的二进制算术编码)熵编码加速器、CABAC熵编码并行化以及层次结构硬件平台和并行编码器原型系统等方面重点内容展开了研究。本文的主要研究成果和创新性主要体现在以下几个方面:1)提出了层次化片上大规模并行体系结构的Amdahl加速比扩展模型。通过引入层次化片上大规模并行体系结构的非一致性片上数据通信和访存开销模型,本文对Amdahl定律进行扩展,研究了层次结构中多个核耦合形成的超节点对系统性能的影响。通过模型分析发现,要获得良好的性能加速比,层次结构需要在超节点数目与超节点的聚合度(超节点包含的核的个数)之间作仔细的权衡;对于给定核数目的层次化片上大规模并行体系结构,使系统性能最优的超节点聚合度往往出现在中间某个值而不是最大或者最小值,并且该值随着系统规模的变化会发生相应的变化。2)提出了一种采用语法元素指令流驱动的全流水CABAC熵编码结构。已有的CABAC硬件加速器结构未考虑加速器与可编程处理器之间的软硬件协作,而这是片上大规模并行嵌入式计算的一类重要问题。本文提出的CABAC熵编码结构采用规格化的语法元素指令流驱动,使得加速器与CPU之间的接口规整,软硬件能实现有效的分工合作。通过采用细致的流水线结构,本文提出的结构可以每周期处理一个符号。在0.13um标准单元工艺下实现结果显示,本文提出的CABAC硬件加速器仅开销3.21K门逻辑就可达到590Mbps的吞吐率。3)为进一步提高CABAC的吞吐率,本文提出了一种基于语法元素分组的CABAC三线程可并行算术编码算法P3-CABAC,并对其硬件结构和开销进行了评估。与已有的CABAC并行算法关注的是细粒度的符号级并行算法和结构不同,P3-CABAC把每个宏块内待编码语法元素按照一定的规则静态地划分为三组,并用三个线程的资源对其进行并行编码,首次实现了线程级并行算术编码器算法。除处理的语法元素不同之外,P3-CABAC的每个线程编码算法均与标准CABAC相同。这使得P3-CABAC的线程级并行算法与已有CABAC快速算法正交,二者可在同一系统同时使用。软件模拟发现,对于高清视频序列,P3-CABAC在不超过3%的码率代价下,可达到最高2.68的加速比。对P3-CABAC的硬件结构进行分析发现,相比前文的CABAC加速器,P3-CABAC的硬件结构仅需付出60%左右的额外硬件开销。4)提出了一种基于局部集中式共享存储超节点的层次化64核片上多DSP体系结构平台,并对其性能优势进行了评估。根据层次结构Amdahl性能模型研究结果,本文利用4个精简DSP、通过共享存储器的方式耦合形成超节点;16个超节点通过片上互连结构形成该层次化64核片上多DSP体系结构。通过在其Verilog行为级模型上进行软件算法映射,本文对该层次结构的性能进行了初步评估。实验结果发现,相比比非层次化64核多DSP系统,即便不采用特殊的局部化映射算法,该64核层次化片上多DSP系统仍然获得了最高1.55的系统加速比。这充分体现了层次结构的性能优势。5)在已有64核层次化片上多DSP体系结构平台基础之上,本文构建了集成P3-CABAC加速器的宏块级/子任务级混合并行H.264/AVC主要档次编码器软硬件原型系统。该原型系统用一个包含P3-CABAC硬件加速器的专用超节点替换了64核层次化多DSP平台中的一个普通超节点,构成硬件平台。软件算法采用宏块级数据并行和宏块内子任务并行相结合的混合并行机制:在所有15个常规超节点间以超节点为单位进行宏块级并行,而在每个超节点内部的4个DSP核之间进行宏块编码子任务级并行。同时,采用课题组之前提出的CABAC码率估计技术突破了复杂率失真优化模式选择对主要档次宏块级并行算法的限制。在节拍精确的超节点模拟器上进行的初步模拟和结果分析发现,该异构原型编码器对高清视频序列可达到平均约50的加速比。综上所述,本文的研究从典型实例出发,研究成果不仅为以片上大规模并行的方式解决H.264/AVC实时高清视频编码提供了技术储备,也为解决其他片上大规模并行嵌入式计算问题面临的软硬件挑战提供了借鉴思路。

全文目录


摘要  12-15
Abstract  15-22
第一章 绪论  22-40
  1.1 研究背景  22-31
    1.1.1 高性能嵌入式计算  22-24
    1.1.2 片上大规模并行计算的发展及其挑战  24-27
    1.1.3 H.264/AVC 对片上大规模并行计算的需求  27-30
    1.1.4 片上大规模并行体系结构面临的挑战  30-31
  1.2 研究现状  31-37
    1.2.1 H.264 编码器研究现状  31-33
    1.2.2 层次化片上大规模并行体系结构研究现状  33-37
  1.3 本文主要工作  37-38
  1.4 本文结构  38-40
第二章 H.264 并行计算特征和需求分析  40-54
  2.1 系统概述  40-42
    2.1.1 H.264 编码源数据结构  40-41
    2.1.2 H.264 系统模型  41-42
  2.2 H.264 的计算复杂度  42-43
  2.3 H.264 并行计算特征分析  43-49
    2.3.1 H.264 的数据相关特性  43-44
    2.3.2 H.264 编码器并行计算特征分析  44-49
  2.4 CABAC 计算需求分析  49-51
    2.4.1 CABAC 中的基本操作  49-50
    2.4.2 CABAC 的吞吐率需求  50-51
  2.5 算法和体系结构策略  51-53
    2.5.1 算法策略  51
    2.5.2 体系结构策略  51-53
  2.6 本章小结  53-54
第三章 Amdahl 定律在层次化片上大规模并行体系结构中的扩展  54-74
  3.1 引言  54-55
  3.2 Amdahl 定律及其在多核处理器中的扩展模型  55-56
  3.3 体系结构抽象和假设  56-58
  3.4 性能解析模型的建立  58-65
    3.4.1 片上互连结构开销模型  58-59
    3.4.2 通信/ 计算比  59-60
    3.4.3 通信和存储访问局域性模型及局部开销模型  60-62
    3.4.4 性能统一模型  62-65
  3.5 层次结构设计空间探索  65-68
    3.5.1 确定聚合度的最优值Copt  65-67
    3.5.2 最优聚合度Copt的变化特性  67
    3.5.3 性能加速比扩展特性  67-68
  3.6 参数探讨  68-71
    3.6.1 非局部性操作比例函数Υ(C,N)  70
    3.6.2 应用类型参数σ  70-71
    3.6.3 超节点内局部开销变量模型?和α  71
    3.6.4 通信/ 计算比例函数系数k  71
  3.7 模型扩展  71-73
    3.7.1 集成Hill 的模型  71-72
    3.7.2 层次嵌套  72-73
  3.8 本章小结  73-74
第四章 用于H.264 并行编码器的高吞吐率CABAC 加速器  74-90
  4.1 引言  74-75
  4.2 CABAC 编码过程和需求分析  75-80
    4.2.1 二进制化  75-76
    4.2.2 上下文建模  76-78
    4.2.3 二进制算术编码  78-80
  4.3 体系结构设计  80-85
    4.3.1 语法元素指令  80-81
    4.3.2 语法元素指令取指  81-82
    4.3.3 增强的SEI 指令译码阶段  82-83
    4.3.4 二进制算术编码器  83-84
    4.3.5 CABAC 的上下文初始化  84-85
  4.4 实现结果及比较  85-88
    4.4.1 实现结果  86
    4.4.2 结果比较及讨论  86-88
  4.5 CABAC 加速器在片上大规模并行体系结构中的应用  88
  4.6 本章小结  88-90
第五章 用于H.264 大规模并行编码器的CABAC 熵编码算法的并行化演进  90-112
  5.1 引言  90-91
  5.2 CABAC 算法和相关研究  91-93
  5.3 并行化演进算法  93-99
    5.3.1 CABAC 潜在并行性分析  93-96
    5.3.2 CABAC 演进算法描述  96-97
    5.3.3 负载均衡性  97-98
    5.3.4 解码器问题  98-99
  5.4 模拟结果分析及讨论  99-106
    5.4.1 模拟环境设置  99-100
    5.4.2 码率影响分析  100-105
    5.4.3 加速比分析  105-106
  5.5 P3-CABAC 硬件结构和开销估计  106-108
  5.6 系统问题讨论  108-110
    5.6.1 系统平台  108-109
    5.6.2 全系统集成  109-110
    5.6.3 全系统贡献  110
  5.7 本章小结  110-112
第六章 层次化平台和H.264/AVC 并行编码器原型系统研究  112-128
  6.1 YHFT-QDSP 超节点芯片  112-114
  6.2 层次化片上多DSP 平台体系结构平台  114-122
    6.2.1 体系结构  114-115
    6.2.2 超节点体系结构  115-119
    6.2.3 算法映射分析  119-120
    6.2.4 实验结果及讨论  120-122
  6.3 H.264 并行编码器原型系统  122-127
    6.3.1 H.264 并行编码器硬件平台  122-123
    6.3.2 H.264 并行编码算法分析  123-125
    6.3.3 实验结果及讨论  125-127
  6.4 本章小结  127-128
第七章 结束语  128-131
  7.1 主要工作和创新点  128-130
  7.2 研究展望  130-131
致谢  131-133
参考文献  133-146
作者在学期间取得的学术成果  146-148
附录A H.264/AVC 基本术语解释  148-151
附录B 语法元素类型及其编码  151-152

相似论文

  1. 生态因素对玉米产量性能的调控效应及其模型的构建,S513
  2. 面向ARM嵌入式系统的H.264解码研究,TP368.1
  3. 钢—混凝土塔座预应力结合段受力性能研究,U441
  4. 超细水泥渗透特性微观试验研究及理论分析,TQ172
  5. 基于FPGA的手术导航红外光学空间定位系统的设计研究,R318.6
  6. BGP协议中正则表达式匹配系统的研究与软硬件实现,TP368.1
  7. 多核处理器中二维总线结构NUCA技术研究,TP332
  8. AVS帧内预测解码算法的硬件化设计与验证,TN919.81
  9. 基于多核处理器的分组数据通信网关系统设计与实现,TN919.2
  10. 基于DXVA的MPEG-2视频解码器的设计与实现,TN919.81
  11. 基于SOA的系统性能建模研究,TP393.09
  12. Android显示系统应用硬件加速技术的研究,TP316
  13. 软件过程性能模型的工程化方法研究,TP311.52
  14. 基于多组件的Web服务系统性能模型研究,TP393.09
  15. 基于CMMI4的软件缺陷管理体系研究及应用,TP311.52
  16. 面向内容安全的数据索引技术,TP391.3
  17. 张量积B-样条凸函数拟合方法及其在电路建模中的应用,TN47
  18. 基于硬件加速器的DMC控制器实现研究,TP273
  19. 引气混凝土力学性能及抗碳化性能的试验研究,TU528
  20. 基于FPGA的嵌入式视觉检测系统及IP核设计,TN47
  21. 网络性能结构模型的设计与实现,TP393.08

中图分类: > 工业技术 > 无线电电子学、电信技术 > 微电子学、集成电路(IC) > 大规模集成电路、超大规模集成电路
© 2012 www.xueweilunwen.com