学位论文 > 优秀研究生学位论文题录展示
面向存储级并行的多核处理器关键技术研究
作 者: 刘德峰
导 师: 谢伦国
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 存储级并行 多核处理器 排队论 系统性能分析 cache失效处理结构 访存调度算法
分类号: TP332
类 型: 博士论文
年 份: 2011年
下 载: 150次
引 用: 1次
阅 读: 论文下载
内容摘要
“存储墙”问题是当前限制处理器性能提高的一个主要因素,而多核处理器的出现不仅没有解决这个问题,反而对存储系统带来了更大的挑战。如何减少存储器访问延迟对计算机性能的影响是计算机系统设计者无法回避的问题。长期以来,处理器设计者一直致力于提高处理器的指令级并行,利用处理器的计算时间来隐藏存储器访问延迟。但随着处理器和存储器之间性能差距的不断扩大,处理器的计算时间已经无法满足隐藏访存延迟的需要,处理器必须停顿等待存储器访问返回的结果,从而出现处理器的计算时间被访存请求打断成很多个计算阶段的现象,并且处理器等待存储器访问时间占整个程序执行时间的比重越来越大。借鉴指令级并行的思想,人们开始思考如何将多个长延迟外部访存重叠执行,从而形成了存储级并行(Memory-level parallelism,MLP)的思想。存储级并行技术通过多个存储器访问重叠执行来隐藏存储器访问延迟,以减少处理器因存储器访问而停顿的时间,提高处理器的性能。存储级并行已经成为当前计算机体系结构研究的一个新热点。本文在对现有存储级并行技术深入分析及系统研究的基础上,首先通过建立支持存储级并行的系统性能分析模型,研究了存储级并行系统的基本特征。并从存储级并行指令流出、存储级并行访存通路及存储级并行服务三个方面对存储级并行技术展开了研究,通过改进CPU微体系结构来提高存储级并行访存指令流出的能力;通过对多核处理器共享Cache失效处理结构的管理提高存储级并行通路的效率;通过优化访存指令调度来提高存储级并行访存请求服务的能力。本文的主要工作和取得的创新性成果如下:(1)提出了支持存储级并行的系统性能分析模型从微处理器和存储结构两个方面分别建立了支持存储级并行系统的性能分析模型。微处理器性能模型(MLP-CM)刻画了存储级并行与系统性能之间的关系,可以有效的评价存储级并行系统的性能、Cache失效处理结构的占用数目、存储级并行度、平均访存延迟等系统参数。实验结果表明:MLP-CM模型可以较准确的预测系统性能。存储器分析模型(MLP-MM)刻画了多级Cache的失效处理器结构占用数目之间的关系,及多级Cache失效处理结构占用数目与CPU访存请求能力之间的关系。以两级Cache为例,证明了在当前Cache和存储器的访问延迟情况下,两级Cache失效占用的失效处理结构数目是相近的。(2)提出了Runahead执行指令流出优化技术ERARunahead执行技术是一种有效提高存储级并行的方法,在处理器因长延迟访存而停顿时,处理器建立检查点,并进入Runahead执行阶段,预执行后继所有指令,当长延迟访存结果返回时,处理器恢复到正常执行状态,从检查点重新开始执行。Runahead技术因在预执行过程中执行了大量与访存指令无关的指令,大大增加了处理器的能量消耗。针对该问题,本文提出了一种减少Runahead执行无效指令的方法(ERA),对于浮点程序,较之常规的Runahead执行技术,该方法能够减少30%以上的无效指令的执行。(3)提出了一种面向存储级并行的多核处理器共享Cache失效处理结构管理方法MLP_Group在多核处理器中,所有的处理器核通过共享的Cache失效处理结构(MHA)访问外部存储器。由于处理器核对共享资源MHA的访问冲突问题,影响了处理器核线程的存储级并行性及各线程间的公平性。针对该问题,提出了一种支持存储级并行的共享Cache失效处理结构管理方法(MLP_Group)。该方法在保证系统公平性的前提下,可以有效的挖掘线程内部固有的存储级并行性,从而提高系统性能。与传统的MHA相比,MLP_Group方法平均IPC提高7.1%,公平性提高23.6%。(4)提出了一种提高存储并行服务能力的基于虚通道的访存请求调度方法VC-MAS针对存储级并行需要提高存储器并行服务能力的问题,提出了一种基于虚通道的SDRAM访存调度方法(VC-MAS),该方法可以充分利用存储器的带宽,提高存储器存储体之间的并行服务能力。
|
全文目录
摘要 12-14 Abstract 14-16 第一章 绪论 16-28 1.1 研究背景与选题意义 16-20 1.1.1 存储墙问题 16-17 1.1.2 多核处理器对存储系统提出了更高的要求 17-18 1.1.3 应对“存储墙”问题的传统解决方法 18-20 1.2 存储级并行的提出 20-21 1.3 研究内容与创新点 21-25 1.3.1 研究内容 21-24 1.3.2 主要工作和创新点 24-25 1.4 论文结构 25-28 第二章 存储级并行与处理器微体系结构 28-46 2.1 问题的提出 28-29 2.2 存储级并行的几个基本问题 29-33 2.2.1 存储级并行的定义 29-30 2.2.2 存储级并行的研究范畴及几个基本概念 30-32 2.2.3 存储级并行对程序执行性能的影响 32 2.2.4 存储级并行的提升空间 32-33 2.3 限制处理器存储级并行的主要因素 33-34 2.3.1 指令流出队列和ROB 的大小 33 2.3.2 串行化指令 33 2.3.3 取指失效和分支预测失败 33-34 2.3.4 Load 指令流出策略 34 2.3.5 Cache 失效处理机制 34 2.4 提高处理器存储级并行的技术 34-45 2.4.1 扩展指令窗口 35-38 2.4.2 数据预取与推测执行 38-40 2.4.3 片上存储系统 40-41 2.4.4 多线程处理器 41-42 2.4.5 多核处理器 42-45 2.5 小结 45-46 第三章 面向存储级并行的系统性能分析与建模 46-70 3.1 MLP-CM:面向存储级并行的微处理器性能分析模型 46-58 3.1.1 研究背景 46-47 3.1.2 存储级并行处理器的性能分析 47-54 3.1.3 模型验证 54-58 3.2 MLP-MM:面向存储级并行的存储系统性能分析 58-67 3.2.1 研究背景 59-60 3.2.2 MHA 结构入口数目的分析 60-63 3.2.3 实验设置 63 3.2.4 高存储级并行对存储结构的需求 63-67 3.3 小结 67-70 第四章 Runahead 执行指令流出优化方法 70-84 4.1 背景介绍 70-72 4.1.1 Runahead 执行 70-71 4.1.2 相关工作 71-72 4.2 Runahead 执行问题分析 72-75 4.2.1 Runahead 执行的能耗问题 72-74 4.2.2 Runahead 执行中的无效指令 74-75 4.3 减少Runahead 执行中无效指令的方法 75-77 4.3.1 减少浮点程序无效指令的方法 75-76 4.3.2 减少整数程序无效指令的方法 76 4.3.3 算法实现 76-77 4.3.4 硬件开销 77 4.4 实验结果与分析 77-82 4.4.1 实验方法 77-78 4.4.2 实验结果 78-82 4.5 小结 82-84 第五章 面向存储级并行的多核处理器MHA 管理 84-106 5.1 背景介绍 85-87 5.1.1 共享Cache 划分 85 5.1.2 存储器带宽管理 85-86 5.1.3 Cache 失效处理器结构 86-87 5.2 共享Cache 中MHA 的失效冲突调度 87-91 5.2.1 MHA 对单核处理器存储级并行的提高 87-88 5.2.2 多核处理器在MHA 中的存储级并行冲突 88-90 5.2.3 MHA 冲突对系统产出率的影响 90-91 5.2.4 MHA 冲突对系统公平性的影响 91 5.3 支持存储级并行的MHA 调度算法 91-98 5.3.1 当前Cache 失效请求组的生成 91-92 5.3.2 存储级并行敏感的组内调度 92-93 5.3.3 PGMHA 的实现 93-97 5.3.4 调度示例 97-98 5.4 实验结果 98-103 5.4.1 实验平台介绍 98 5.4.2 评价方法 98-99 5.4.3 测试用例介绍 99-100 5.4.4 实验结果 100-103 5.5 小结 103-106 第六章 面向存储级并行的虚通道SDRAM 访存调度器研究 106-124 6.1 研究背景 106-110 6.1.1 DDR2 SDRAM 存储器 107 6.1.2 SDRAM 访存操作时序要求 107-109 6.1.3 访存调度基本限制 109-110 6.2 存储级并行与存储器 110-112 6.2.1 存储级并行与多体存储器 110-111 6.2.2 高存储级并行处理器对存储器的需求 111-112 6.3 面向存储级并行的虚通道访存调度器 112-118 6.3.1 多体虚通道的基本思想 112-113 6.3.2 基于虚通道的访存调度器结构 113-114 6.3.3 基于索引虚通道的访存调度器 114-115 6.3.4 LWT-RF 访存调度策略与防饿死机制 115-116 6.3.5 调度算法实现 116-118 6.4 LWT-RF 访存调度策略性能评测 118-122 6.4.1 实验设置 118-119 6.4.2 虚通道(存储体)数对调度时间的影响 119-121 6.4.3 存储器的体数对高存储级并行处理器性能的影响 121-122 6.5 小结 122-124 第七章 结论与展望 124-126 7.1 论文工作的创新点和总结 124-125 7.2 课题研究展望 125-126 致谢 126-128 参考文献 128-138 作者在学期间取得的学术成果 138-139 作者在学期间参加的科研项目 139
|
相似论文
- TD-SCDMA无线链路控制协议实现研究,TN929.533
- 排队论模型在医疗服务系统中的应用研究,R197.1
- 多核系统中基于温度限制的节能调度算法研究,TP332
- 分布式内存多核处理器流程序虚拟机研究,TP333.1
- 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
- 基于TilePro64多核处理器的H.264高清视频解码软件设计,TN919.81
- 自行防空系统协同作战建模与仿真方法研究,E955
- 基于GALS的多核互连及任务调度策略研究,TN47
- 低碳约束下施工设备的选择决策模型研究,TU60
- 基于共享前端的流多核体系结构关键技术研究,TP332
- 基于群智能和冲突规避策略的基因—基因交互作用检测及其并行计算,TP391.41
- 基于物流港口企业业务流程战略转型的岗位优化设置研究,F259.27;F224
- 多分辨率图像锥结合FCM的多核并行图像分割算法研究,TP391.41
- 高性能低功耗多核处理器研究,TP332
- DTMB中3780点FFT在多核DSP平台上的实现,TP368.1
- 西安国际港务区对公交线路影响的研究,F572.88
- 基于M/G/1电梯搬运系统的多楼层设施布置问题研究,TU857
- 图像加密评测系统设计及实现,TP309.7
- 面向软件事务存储的内存管理技术研究与实现,TP333.1
- 排队对策模型的解的研究,F224
- 基于排队论的沿海港口航道通过能力及服务水平研究,U697
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|