学位论文 > 优秀研究生学位论文题录展示

CMT处理器高速缓存的优化技术

作 者: 马鹏勇
导 师: 陈书明
学 校: 国防科学技术大学
专 业: 微电子学与固体电子学
关键词: 多线程处理器芯片 多核DSP 同时多线程 线程级并行性 线程公平性 环形协同数据Cache 线程动态交换 伪时序模型
分类号: TP332
类 型: 博士论文
年 份: 2007年
下 载: 181次
引 用: 3次
阅 读: 论文下载
 

内容摘要


用户的需求是无止境的,提高微处理器性能是广大研究者们不懈追求的目标。目前半导体工艺的飞速发展,使得单个芯片上可以集成数十亿个晶体管,如何有效地利用这些不断增长的片上资源,开发出高效的微处理器,是当前计算机体系结构进一步发展面临的重要挑战之一。通过开发深度指令级并行性(ILP)来提高微处理器性能的传统方法越来越受到以下两个方面的限制,一是设计复杂,研制周期长;二是由于单个线程的指令级并行度有限,导致芯片的运行效率低。多线程处理器(CMT)通过挖掘程序的线程级并行性(TLP),提高了系统的性能,是克服指令级并行性难以进一步开发的有效方法。另外,在单个芯片上实现多核多线程结构,可以利用原有的单核单线程的设计基础,使得芯片的开发周期短并易于验证。CMT已经成为当今处理器设计的主流结构,因此研究CMT结构中的关键技术问题具有迫切的需求和较高的应用价值。本文的工作主要针对CMT处理器的高速缓存进行优化。为了减小多线程运行时指令Cache的冲突,本文提出了二幂等分指令Cache策略和循环锁竞争机制;现有对CMT处理器公平性的研究常常需要中断其它线程进行单线程采样,针对这个问题本文提出了多线程公平性策略FROCM;本文提出了环形协同数据Cache结构,以解决CMT处理器中共享存储体负载重,冲突大的问题;本文还提出了基于快速共享数据缓冲池的线程动态交换技术;最后本文实现了一个双核同时多线程芯片原型YHFT DSP/DS。另外,为了缩短芯片中关键路径,本文对多端口寄存器文件进行全定制优化设计;为了快速对全定制模块建模,本文提出了全定制模块的伪同步时序建模方法,大大地降低了多端口硬宏模块建立延迟视图的工作量。本文主要的研究成果有:1)二幂等分Cache策略和循环锁竞争机制。在CMT处理器中,多个线程共享指令Cache,导致Cache抖动现象经常发生。本文提出了二幂等分Cache策略和循环锁竞争机制来降低Cache冲突,采用这两种方法后,不仅主线程的性能比以前有很大的提高,而且整个系统的吞吐量也提高了4%。2)多线程的公平性策略FROCM。当前对多线程芯片中线程公平性的研究,往往需要开辟采样阶段来获取单线程的IPCalone,降低了处理器性能。FROCM策略不需要进行单线程采样,当每个线程遇到Cache失效时,自动重新计算其IPCalone。实验结果表明,绝大部分测试组合的系统公平值Fn都能保证在0.95以上。3)环形协同一级数据Cache结构RCDC。在CMT处理器中,共享的高级Cache要为多个私有的低级Cache提供指令和数据,负载重,冲突大。RCDC充分利用了同一芯片上不同处理器核L1D之间能快速进行数据传送的优点,尽量减少对共享L2的访问。并以此结构为背景,建立了一种简洁高效的数据一致性协议:M2SI。4)线程动态交换技术。它能实时检测两个线程间数据的亲密度,当发现处于不同内核的两个线程所处理的数据密切相关时,能快速地把它们交换到同一个内核中运行。此方法能有效减少内核间的通信量,提升处理器的性能。5)设计并实现了双核同时双线程处理器原型系统YHFT DSP/DS并对单个内核做了FPGA验证。为了适应数字信号处理中大量的生产者→消费者类型的处理,我们还在原型芯片中设置了共享数据缓冲池。利用原型芯片YHFT DSP/DS对上述技术的正确性和有效性进行了全面的验证和评估,模拟结果显示,与单核单线程处理器YHFT DSP/800相比,YHFT DSP/DS处理器可以获得近两倍的性能提升。论文的研究成果为CMT处理器设计提供了一个可行的方案,为进一步提高CMT处理器中高速缓存的性能提供了理论依据和实践基础。

全文目录


缩略语说明  12-14
摘要  14-16
ABSTRACT  16-18
第一章 绪论  18-42
  1.1 课题研究背景  18-26
    1.1.1 CMT处理器发展背景  18-22
    1.1.2 CMT处理器发展状况  22-24
    1.1.3 项目背景:多核DSP  24-26
  1.2 CMT处理器关键技术研究  26-29
    1.2.1 取指和指令发射策略  26
    1.2.2 寄存器文件设计  26-27
    1.2.3 系统公平性  27
    1.2.4 线程切换  27
    1.2.5 核间同步和通信机制  27-28
    1.2.6 低功耗设计  28
    1.2.7 任务调度  28-29
  1.3 CMT中高速缓存相关研究现状  29-35
    1.3.1 存储通路优化  29-30
    1.3.2 Cache冲突的降低  30-31
    1.3.3 Cache层次结构  31
    1.3.4 Cache一致性协议  31-33
    1.3.5 基于Cache的公平性  33-34
    1.3.6 Cache间数据交互  34
    1.3.7 CMT中高速缓存的特点  34-35
  1.4 YHFT单核DSP简介  35-38
    1.4.1 内核  36-38
    1.4.2 存储系统  38
    1.4.3 外设  38
  1.5 本文的工作及创新点  38-39
  1.6 论文的组织结构  39-42
第二章 缓解CMT中指令Cache冲突  42-62
  2.1 相关工作  42
  2.2 Cache抖动  42-43
  2.3 二幂等分指令Cache策略  43-50
    2.3.1 设计目标  43-44
    2.3.2 二幂等分指令Cache模型  44-46
    2.3.3 幂等分寄存器的动态修改  46-49
    2.3.4 二幂等分指令Cache的优点  49-50
  2.4 循环锁竞争机制  50-53
    2.4.1 设计目标  50-51
    2.4.2 设计实现  51-53
  2.5 实验结果和分析  53-59
    2.5.1 实验环境建立  53-56
    2.5.2 实验结果及分析  56-59
  2.6 小结  59-62
第三章 低开销实时公平性策略FROCM  62-76
  3.1 相关工作  62-63
  3.2 公平值定义及模型建立  63-67
  3.3 实验结果及分析  67-72
    3.3.1 模拟环境  67-68
    3.3.2 低开销硬件实现  68-70
    3.3.3 实验结果  70-72
  3.4 基于不同优先级的公平策略FROCM+  72-74
    3.4.1 实现方法  72-73
    3.4.2 实验结果  73-74
  3.5 小结  74-76
第四章 环形协同数据Cache结构RCDC  76-92
  4.1 相关工作  76-78
  4.2 模型概述  78-79
  4.3 设计实现  79-85
    4.3.1 四核RCDC结构处理器  79
    4.3.2 读请求过程  79-81
    4.3.3 写请求过程  81-82
    4.3.4 数据块作废和主块标志转移  82-83
    4.3.5 环形链的冲突检测  83-84
    4.3.6 L1D空闲概率  84-85
  4.4 基于RCDC的一致性协议M2SI  85-86
  4.5 实验结果及分析  86-89
  4.6 小结  89-92
第五章 基于共享缓冲池的线程动态交换  92-104
  5.1 相关工作  92
  5.2 快速共享数据缓冲池结构  92-95
  5.3 线程交换例子:矩阵乘法  95-97
  5.4 数据亲密度检测  97-99
  5.5 线程动态交换的实现  99-100
  5.6 实验结果及分析  100-103
  5.7 小结  103-104
第六章 YHFT DSP/DS处理器原型设计与实现  104-136
  6.1 YHFT DSP/SMT简介  104-105
  6.2 YHFT DSP/DS体系结构  105-110
    6.2.1 缓解Cache冲突  106-107
    6.2.2 快速共享数据缓冲池  107-108
    6.2.3 线程公平性策略FROCM  108
    6.2.4 环形协同Cache结构  108-109
    6.2.5 线程动态交换  109-110
    6.2.6 一级Cache的Tag及状态位的变化  110
  6.3 多端口寄存器文件全定制优化设计  110-119
    6.3.1 存储通路中寄存器文件的关键性分析  110-111
    6.3.2 寄存器文件功能及结构优化  111-112
    6.3.3 模块布局  112-113
    6.3.4 定向通路  113-114
    6.3.5 存储阵列  114-116
    6.3.6 时钟树设计与分析  116-117
    6.3.7 设计验证和全定制收益  117-119
  6.4 全定制模块的伪同步时序建模  119-122
  6.5 单内核FPGA验证  122-130
    6.5.1 验证环境的建立  122-124
    6.5.2 读、写串行化多端口寄存器文件  124-125
    6.5.3 串口通信控制器的设计  125-128
    6.5.4 FPGA验证的流程  128-130
  6.6 YHFT DSP/DS性能分析  130-134
    6.6.1 面积和延迟比较  130
    6.6.2 模拟结果  130-132
    6.6.3 性能评测  132-134
  6.7 小结  134-136
第七章 结束语  136-140
  7.1 所做的工作与创新  136-137
  7.2 未来的研究方向  137-140
致谢  140-142
参考文献  142-154
作者在学期间取得的学术成果  154-156
附录A  156-158
附录B  158

相似论文

  1. 多线程环境下Wattch工具的移植与功耗仿真研究,TP311.52
  2. 单芯片多处理器关键技术的研究与实现,TP332
  3. 基于EPIC的动态同时多线程微体系结构线程调度技术研究,TP332
  4. 一种超长指令字同时多线程处理器的设计与分析,TP332
  5. 基于EPIC动态同时多线程寄存器文件管理机制的研究,TP332
  6. Kylin超线程技术研究与实现,TP332
  7. 基于MDSP的并行图像匹配算法的设计与实现,TP391.41
  8. WCDMA系统的Femtocell接收机的多核DSP实现,TN929.533
  9. TD-LTE Femtocell发送端设计与基于多核DSP的实现,TP368.12
  10. LTE下行系统中信道估计的研究及DSP实现,TN929.5
  11. 雷达成像算法的软件实现,TN957.52
  12. 异构多核DSP数据流前瞻关键技术研究,TP368.1
  13. 基于CoStar Ⅱ的异构多核DSP设计与实现,TP368.12
  14. 多核SoC片上网络关键技术研究,TN47
  15. TD-SCDMA的上行同步算法研究及DSP实现,TN929.533
  16. TD-LTE系统随机接入处理的设计与实现,TN929.5
  17. 同时多线程处理器中的资源分配策略研究,TP332
  18. 基于超长指令字处理器的同时多线程关键技术研究,TP368.1
  19. 龙芯2号处理器多线程技术研究,TP332
  20. 同时多线程处理器资源共享控制策略研究,TP332

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com