学位论文 > 优秀研究生学位论文题录展示

异质媒体双发射处理器的设计研究

作 者: 江国范
导 师: 刘鹏
学 校: 浙江大学
专 业: 通信与信息系统
关键词: 超标量处理器 微结构设计 乱序执行 分支预测 数据通路
分类号: TP368.11
类 型: 硕士论文
年 份: 2008年
下 载: 44次
引 用: 1次
阅 读: 论文下载
 

内容摘要


微处理器是嵌入式系统的核心。基于本文作者参与设计的32-bit嵌入式处理器RISC32E,分析标量处理器的性能和频率瓶颈,提出一种异质媒体双发射处理器POLLUX结构框架,探讨处理器流水线微结构、分支预测和媒体数据通路的设计。嵌入式微处理器的性能提高方法主要有两种:频率提升和体系结构改进。存储壁垒限制了短流水线处理器的频率提升,标量处理器的最大吞吐率不超过每周期一条指令。本文以访存操作为导向划分POLLUX的流水线,通过独立的媒体流水线和整型流水线构建POLLUX的乱序执行的双发射结构框架。本文设计了高性能的数据旁路网络和新颖的粗粒度分布式控制机制解决流水线互锁问题;设计了低硬件开销的重排序缓冲器解决了乱序执行处理器的精确异常问题。实验结果表明,POLLUX在TSMC13G标准单元工艺下,worst case主频超过400MHz,typical case主频超过580MHz,Dhrystone测评分值为1.4 DMIPS/MHz。对FFT、DCT、FIR、LMS等媒体核心算法性能评估的结果表明,异质媒体双发射结构具有较强的媒体处理能力。随着处理器可利用的指令级并行性的增加,程序中条件分支和无条件分支指令的频繁出现使得控制相关迅速成为提高并行度的限制因素。为了尽量减小分支指令造成的性能损失,提高处理器的指令流吞吐率,POLLUX采用动态分支预测作为有效探索指令级并行的一种关键方法。通过评测在不同配置下多种分支预测器的预测精度、面积和功耗,本文采用Gshare、Bimodal预测器作为嵌入式处理器的优选方案,并且提出一种软件可配置的双模式分支预测器。实验结果表明,本文实现的分支预测电路以13,907门的硬件代价取得91%的分支预测精度。媒体数据通路是POLLUX微结构的重要组成部分,本文以POLLUX的媒体指令扩展为基础,结合时延和功耗优化提出一种基于标准单元的结构层次的数据通路优化方法,应用于媒体数据通路中的分裂式乘加器。实验结果表明,利用该方法优化后的分裂式乘加器提高性能33.6%的同时降低了27.1%的功耗。

全文目录


摘要  3-4
Abstract  4-5
目录  5-7
第一章 绪论  7-19
  1.1 嵌入式处理器发展史  7-9
  1.2 高端嵌入式处理器  9-15
    1.2.1 媒体增强结构的标量RISC处理器  10-11
    1.2.2 高度可配置的嵌入式处理器  11
    1.2.3 VLIW结构的媒体处理器  11-12
    1.2.4 超标量结构的嵌入式处理器  12-13
    1.2.5 多线程扩展的嵌入式处理器  13-14
    1.2.6 多处理器结构  14-15
  1.3 本文的研究意义和内容安排  15-19
第二章 异质媒体双发射处理器的微结构研究  19-51
  2.1 单发射处理器RISC32E  19-23
    2.1.1 RISC32E流水线结构  20-21
    2.1.2 单发射处理器的频率瓶颈分析  21-23
  2.2 双发射处理器POLLUX架构设计  23-30
    2.2.1 POLLUX发射策略  24-27
    2.2.2 POLLUX流水线划分  27-30
  2.3 POLLUX流水线竞争和流水线控制策略  30-35
    2.3.1 流水线竞争及防治措施  30-32
    2.3.2 流水线控制策略  32-35
  2.4 处理器精确异常机制和重排序缓冲器  35-43
    2.4.1 乱序执行流水线的精确异常处理方式  36-37
    2.4.2 ROB硬件电路设计  37-40
    2.4.3 访存操作与ROB分离  40-43
  2.5 POLLUX处理器的双线程模式扩展  43-45
  2.6 POLLUX初步性能评估  45-49
  2.7 本章小结  49-51
第三章 嵌入式处理器的动态分支预测机制  51-71
  3.1 控制相关和分支造成的性能损失  51-52
  3.2 动态分支预测原理  52-55
  3.3 最新的动态分支预测算法  55-57
  3.4 嵌入式处理器的分支预测策略  57-63
    3.4.1 分支预测器的设计原则  57-58
    3.4.2 分支预测器的性能模拟  58-62
    3.4.3 可配置分支预测器  62-63
  3.5 POLLUX分支预测电路设计  63-69
    3.5.1 分支指令预译码  63-64
    3.5.2 分支指令的分类预测  64-66
    3.5.3 分支延迟槽的处理方法  66-67
    3.5.4 分支预测失败恢复  67-68
    3.5.5 分支预测硬件代价  68-69
  3.6 本章小结  69-71
第四章 低功耗媒体数据通路  71-91
  4.1 微处理器的媒体结构扩展  71-73
  4.2 数据通路的低功耗设计方法  73-77
    4.2.1 CMOS集成电路的功耗模型  73-75
    4.2.2 高抽象层次的低功耗设计方法  75-76
    4.2.3 时延优化与功耗优化结合的设计方法  76-77
  4.3 POLLUX媒体数据通路分析  77-80
  4.4 低功耗分裂式乘加器设计  80-88
    4.4.1 基于16比特乘加器的可拆分结构  80-82
    4.4.2 16-bit乘加器  82-85
    4.4.3 分裂式乘加器物理性能分析  85-87
    4.4.4 在逻辑级降低乘加器的动态功耗  87-88
  4.5 本章小结  88-91
总结和展望  91-93
参考文献  93-101
作者攻读硕士期间发表的论文  101
作者攻读硕士期间参加的科研工作  101-103
致谢  103

相似论文

  1. 基于函数动态重用的处理器性能优化研究,TP332
  2. 嵌入式处理器中多媒体加速单元的研究,TP332
  3. 基于NAND FLASH的多路并行存储系统的研究与实现,TP333
  4. DRRAD系统研究与实现,TP309.7
  5. 处理器性能分析模型研究,TP332
  6. 基于PowerPC的FPU设计,TP332
  7. 嵌入式处理器中低功耗的BTB研究与设计,TP332
  8. 微处理器中分支处理技术的开发与研究,TP368.11
  9. RTL数据通路内部功能模块产生测试向量方法研究,TN407
  10. 基于数据重用机制的超标量处理器分支预测研究,TP332
  11. 基于多核包处理器的高速数据交换总线设计研究,TP393.05
  12. LDPC解码器的异步流水线电路研究,TN764
  13. 四级流水线数字信号处理器核的设计,TP368.11
  14. X-DSP数据地址产生部件的设计与实现,TP368.11
  15. MSTP中弹性分组环MAC数据通路的设计,TN915
  16. 基于神经网络的处理器分支预测技术研究,TP332
  17. 专用视频处理器指令集研究与数据通路设计,TP332
  18. 视频DSP—并行处理与运动估计IP核设计,TP332
  19. 高速ASIC设计新理论中的高层次综合算法及软件研究,TN402
  20. 64位高性能微处理器前端取指部件的设计与实现,TP332
  21. 通用CPU实验系统的设计与实现,TP302

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 微型计算机 > 各种微型计算机 > 微处理机
© 2012 www.xueweilunwen.com