学位论文 > 优秀研究生学位论文题录展示
CMT处理器高速缓存的优化技术
作 者: 马鹏勇
导 师: 陈书明
学 校: 国防科学技术大学
专 业: 微电子学与固体电子学
关键词: 多线程处理器芯片 多核DSP 同时多线程 线程级并行性 线程公平性 环形协同数据Cache 线程动态交换 伪时序模型
分类号: TP332
类 型: 博士论文
年 份: 2007年
下 载: 181次
引 用: 3次
阅 读: 论文下载
内容摘要
用户的需求是无止境的,提高微处理器性能是广大研究者们不懈追求的目标。目前半导体工艺的飞速发展,使得单个芯片上可以集成数十亿个晶体管,如何有效地利用这些不断增长的片上资源,开发出高效的微处理器,是当前计算机体系结构进一步发展面临的重要挑战之一。通过开发深度指令级并行性(ILP)来提高微处理器性能的传统方法越来越受到以下两个方面的限制,一是设计复杂,研制周期长;二是由于单个线程的指令级并行度有限,导致芯片的运行效率低。多线程处理器(CMT)通过挖掘程序的线程级并行性(TLP),提高了系统的性能,是克服指令级并行性难以进一步开发的有效方法。另外,在单个芯片上实现多核多线程结构,可以利用原有的单核单线程的设计基础,使得芯片的开发周期短并易于验证。CMT已经成为当今处理器设计的主流结构,因此研究CMT结构中的关键技术问题具有迫切的需求和较高的应用价值。本文的工作主要针对CMT处理器的高速缓存进行优化。为了减小多线程运行时指令Cache的冲突,本文提出了二幂等分指令Cache策略和循环锁竞争机制;现有对CMT处理器公平性的研究常常需要中断其它线程进行单线程采样,针对这个问题本文提出了多线程公平性策略FROCM;本文提出了环形协同数据Cache结构,以解决CMT处理器中共享存储体负载重,冲突大的问题;本文还提出了基于快速共享数据缓冲池的线程动态交换技术;最后本文实现了一个双核同时多线程芯片原型YHFT DSP/DS。另外,为了缩短芯片中关键路径,本文对多端口寄存器文件进行全定制优化设计;为了快速对全定制模块建模,本文提出了全定制模块的伪同步时序建模方法,大大地降低了多端口硬宏模块建立延迟视图的工作量。本文主要的研究成果有:1)二幂等分Cache策略和循环锁竞争机制。在CMT处理器中,多个线程共享指令Cache,导致Cache抖动现象经常发生。本文提出了二幂等分Cache策略和循环锁竞争机制来降低Cache冲突,采用这两种方法后,不仅主线程的性能比以前有很大的提高,而且整个系统的吞吐量也提高了4%。2)多线程的公平性策略FROCM。当前对多线程芯片中线程公平性的研究,往往需要开辟采样阶段来获取单线程的IPCalone,降低了处理器性能。FROCM策略不需要进行单线程采样,当每个线程遇到Cache失效时,自动重新计算其IPCalone。实验结果表明,绝大部分测试组合的系统公平值Fn都能保证在0.95以上。3)环形协同一级数据Cache结构RCDC。在CMT处理器中,共享的高级Cache要为多个私有的低级Cache提供指令和数据,负载重,冲突大。RCDC充分利用了同一芯片上不同处理器核L1D之间能快速进行数据传送的优点,尽量减少对共享L2的访问。并以此结构为背景,建立了一种简洁高效的数据一致性协议:M2SI。4)线程动态交换技术。它能实时检测两个线程间数据的亲密度,当发现处于不同内核的两个线程所处理的数据密切相关时,能快速地把它们交换到同一个内核中运行。此方法能有效减少内核间的通信量,提升处理器的性能。5)设计并实现了双核同时双线程处理器原型系统YHFT DSP/DS并对单个内核做了FPGA验证。为了适应数字信号处理中大量的生产者→消费者类型的处理,我们还在原型芯片中设置了共享数据缓冲池。利用原型芯片YHFT DSP/DS对上述技术的正确性和有效性进行了全面的验证和评估,模拟结果显示,与单核单线程处理器YHFT DSP/800相比,YHFT DSP/DS处理器可以获得近两倍的性能提升。论文的研究成果为CMT处理器设计提供了一个可行的方案,为进一步提高CMT处理器中高速缓存的性能提供了理论依据和实践基础。
|
全文目录
缩略语说明 12-14 摘要 14-16 ABSTRACT 16-18 第一章 绪论 18-42 1.1 课题研究背景 18-26 1.1.1 CMT处理器发展背景 18-22 1.1.2 CMT处理器发展状况 22-24 1.1.3 项目背景:多核DSP 24-26 1.2 CMT处理器关键技术研究 26-29 1.2.1 取指和指令发射策略 26 1.2.2 寄存器文件设计 26-27 1.2.3 系统公平性 27 1.2.4 线程切换 27 1.2.5 核间同步和通信机制 27-28 1.2.6 低功耗设计 28 1.2.7 任务调度 28-29 1.3 CMT中高速缓存相关研究现状 29-35 1.3.1 存储通路优化 29-30 1.3.2 Cache冲突的降低 30-31 1.3.3 Cache层次结构 31 1.3.4 Cache一致性协议 31-33 1.3.5 基于Cache的公平性 33-34 1.3.6 Cache间数据交互 34 1.3.7 CMT中高速缓存的特点 34-35 1.4 YHFT单核DSP简介 35-38 1.4.1 内核 36-38 1.4.2 存储系统 38 1.4.3 外设 38 1.5 本文的工作及创新点 38-39 1.6 论文的组织结构 39-42 第二章 缓解CMT中指令Cache冲突 42-62 2.1 相关工作 42 2.2 Cache抖动 42-43 2.3 二幂等分指令Cache策略 43-50 2.3.1 设计目标 43-44 2.3.2 二幂等分指令Cache模型 44-46 2.3.3 幂等分寄存器的动态修改 46-49 2.3.4 二幂等分指令Cache的优点 49-50 2.4 循环锁竞争机制 50-53 2.4.1 设计目标 50-51 2.4.2 设计实现 51-53 2.5 实验结果和分析 53-59 2.5.1 实验环境建立 53-56 2.5.2 实验结果及分析 56-59 2.6 小结 59-62 第三章 低开销实时公平性策略FROCM 62-76 3.1 相关工作 62-63 3.2 公平值定义及模型建立 63-67 3.3 实验结果及分析 67-72 3.3.1 模拟环境 67-68 3.3.2 低开销硬件实现 68-70 3.3.3 实验结果 70-72 3.4 基于不同优先级的公平策略FROCM+ 72-74 3.4.1 实现方法 72-73 3.4.2 实验结果 73-74 3.5 小结 74-76 第四章 环形协同数据Cache结构RCDC 76-92 4.1 相关工作 76-78 4.2 模型概述 78-79 4.3 设计实现 79-85 4.3.1 四核RCDC结构处理器 79 4.3.2 读请求过程 79-81 4.3.3 写请求过程 81-82 4.3.4 数据块作废和主块标志转移 82-83 4.3.5 环形链的冲突检测 83-84 4.3.6 L1D空闲概率 84-85 4.4 基于RCDC的一致性协议M2SI 85-86 4.5 实验结果及分析 86-89 4.6 小结 89-92 第五章 基于共享缓冲池的线程动态交换 92-104 5.1 相关工作 92 5.2 快速共享数据缓冲池结构 92-95 5.3 线程交换例子:矩阵乘法 95-97 5.4 数据亲密度检测 97-99 5.5 线程动态交换的实现 99-100 5.6 实验结果及分析 100-103 5.7 小结 103-104 第六章 YHFT DSP/DS处理器原型设计与实现 104-136 6.1 YHFT DSP/SMT简介 104-105 6.2 YHFT DSP/DS体系结构 105-110 6.2.1 缓解Cache冲突 106-107 6.2.2 快速共享数据缓冲池 107-108 6.2.3 线程公平性策略FROCM 108 6.2.4 环形协同Cache结构 108-109 6.2.5 线程动态交换 109-110 6.2.6 一级Cache的Tag及状态位的变化 110 6.3 多端口寄存器文件全定制优化设计 110-119 6.3.1 存储通路中寄存器文件的关键性分析 110-111 6.3.2 寄存器文件功能及结构优化 111-112 6.3.3 模块布局 112-113 6.3.4 定向通路 113-114 6.3.5 存储阵列 114-116 6.3.6 时钟树设计与分析 116-117 6.3.7 设计验证和全定制收益 117-119 6.4 全定制模块的伪同步时序建模 119-122 6.5 单内核FPGA验证 122-130 6.5.1 验证环境的建立 122-124 6.5.2 读、写串行化多端口寄存器文件 124-125 6.5.3 串口通信控制器的设计 125-128 6.5.4 FPGA验证的流程 128-130 6.6 YHFT DSP/DS性能分析 130-134 6.6.1 面积和延迟比较 130 6.6.2 模拟结果 130-132 6.6.3 性能评测 132-134 6.7 小结 134-136 第七章 结束语 136-140 7.1 所做的工作与创新 136-137 7.2 未来的研究方向 137-140 致谢 140-142 参考文献 142-154 作者在学期间取得的学术成果 154-156 附录A 156-158 附录B 158
|
相似论文
- 多线程环境下Wattch工具的移植与功耗仿真研究,TP311.52
- 单芯片多处理器关键技术的研究与实现,TP332
- 基于EPIC的动态同时多线程微体系结构线程调度技术研究,TP332
- 一种超长指令字同时多线程处理器的设计与分析,TP332
- 基于EPIC动态同时多线程寄存器文件管理机制的研究,TP332
- Kylin超线程技术研究与实现,TP332
- 基于MDSP的并行图像匹配算法的设计与实现,TP391.41
- WCDMA系统的Femtocell接收机的多核DSP实现,TN929.533
- TD-LTE Femtocell发送端设计与基于多核DSP的实现,TP368.12
- LTE下行系统中信道估计的研究及DSP实现,TN929.5
- 雷达成像算法的软件实现,TN957.52
- 异构多核DSP数据流前瞻关键技术研究,TP368.1
- 基于CoStar Ⅱ的异构多核DSP设计与实现,TP368.12
- 多核SoC片上网络关键技术研究,TN47
- TD-SCDMA的上行同步算法研究及DSP实现,TN929.533
- TD-LTE系统随机接入处理的设计与实现,TN929.5
- 同时多线程处理器中的资源分配策略研究,TP332
- 基于超长指令字处理器的同时多线程关键技术研究,TP368.1
- 龙芯2号处理器多线程技术研究,TP332
- 同时多线程处理器资源共享控制策略研究,TP332
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|