学位论文 > 优秀研究生学位论文题录展示
多核处理器片上Cache访问行为分析与优化机制研究
作 者: 贾小敏
导 师: 张民选
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: 多核处理器 片上非一级Cache 片上末级Cache 应用Cache行为识别 溢出 非均匀Cache组间存储访问分布
分类号: TP332
类 型: 博士论文
年 份: 2011年
下 载: 209次
引 用: 2次
阅 读: 论文下载
内容摘要
多核处理器(Chip Multi-Processors,CMP)相比单核处理器具有功耗低、复杂度小、可扩展性好和性价比高等优势,已成为工业界和学术界的主流微处理器体系结构。近来在服务器和数据中心等领域,服务聚合(Server Consolidation)和虚拟计算(Virtual Computing)成为趋势,使多样化的多道程序负载成为CMP平台上的主要负载形式。多核处理器多采用相对简单的处理器核,设计复杂性和性能瓶颈主要集中在存储系统上。随着半导体制造工艺进入纳米时代,多核处理器平台上的层次Cache系统面临着片外访问延迟大、片外访问带宽有限、负载多样化、片上互连线延迟不断增长和应用间负面相互干扰等挑战。片上层次Cache系统特别是非一级Cache(Non-First Level Cache)已成为当前多核处理器平台上的重要课题之一。Cache系统的有效性和多核处理器的系统性能与Cache上承受的Cache访问行为密切相关。分析Cache系统上的Cache访问行为特性对于研究多核处理器Cache系统的优化、管理机制有重要意义。本文针对多核处理器中片上非一级Cache的访问行为分析方法和优化机制展开研究,重点关注多道程序负载,兼顾多线程负载。本文主要取得以下研究成果:1.提出一种在片上非一级Cache中在线识别应用Cache行为类型的方法OABI。该方法基于理论分析和对SPEC CPU2006测试程序集中应用的Cache访问行为特征的统计,根据应用的失效率随Cache容量的变化趋势和基准失效数将应用Cache行为分为五类,并引入相应的硬件支持实现了对应用Cache行为类型的在线识别。该方法可用于指导CMP片上非一级Cache的资源管理和优化。2.以OABI方法为基础,提出了基于应用Cache行为类型在线识别的CMP共享片上末级Cache(Last-Level Cache,LLC)替换策略BIIP。该策略针对共享LLC,结合在线应用Cache行为类型识别和替换策略,利用OABI识别出每个应用的Cache行为类型;对不同类型的应用,根据其特性对其载入块分别采用最适合的Cache插入策略。实验证明,利用在线Cache行为类型识别指导应用的Cache替换策略,能有效地改善共享LLC中的空间利用。3.以OABI方法为基础,提出了基于应用Cache行为类型在线识别的CMP私有LLC的优化机制BICS。该机制基于具有访问延迟小和性能隔离好等优势的私有方式组织的LLC,在运行时利用OABI分别独立动态地识别各应用的Cache行为类型,根据应用的Cache行为类型决定在私有LLC逐出一个块时是否将其寄存到其它同级LLC中;而借出自身容量的私有LLC,在保证自身基本性能的基础上允许其它应用的块替换其自身的部分有效块。BICS在容量借用过程中充分考虑私有LLC间的非一致延迟,在提高空间利用率的同时力图优化LLC的平均命中延迟。实验表明该机制可有效改善私有LLC的空间利用,提高CMP系统的整体性能。4.提出了一种基于Cache组访问压力测量的CMP私有LLC的优化机制BP-NUCA。该机制同样基于具有访问延迟小和性能隔离好等优势的私有方式组织的LLC,引入低开销的硬件结构来在线动态测量每个Cache组实际承受的Cache访问压力,根据该信息将访问压力较大的组的逐出块迁移到其它私有LLC上索引地址相同而Cache访问压力较小的组中。BP-NUCA在迁移过程中也充分考虑了私有LLC间的非一致延迟,在提高空间利用率的同时力图优化LLC的平均命中延迟。实验结果表明该机制可有效平衡不同私有LLC上索引地址相同的组间的空间利用,提高CMP系统的整体性能。5.研究了非均匀Cache组间存储访问分布这一现象对CMP系统性能的影响。提出几种分别试图平衡共享、私有CMP片上非一级Cache中存储访问在Cache组间的分布的优化机制。通过评估这几种优化机制得出结论:在执行多道程序负载的CMP系统上,同时执行的多个应用之间的交互一定程度上减弱了非均匀Cache组间存储访问分布对系统性能的负面影响,特别针对非均匀Cache组间存储访问分布进行优化的机制对CMP片上非一级Cache意义不大。
|
全文目录
摘要 12-14 ABSTRACT 14-17 第一章 绪论 17-31 1.1 课题背景 17-25 1.1.1 多核处理器成为主流 17-21 1.1.2 应用聚合的趋势 21-22 1.1.3 存储墙仍是问题 22-25 1.2 课题研究内容 25-27 1.2.1 片上非一级Cache 访问行为分析方法 25-26 1.2.2 片上非一级Cache 优化机制 26-27 1.3 论文主要工作及创新 27-29 1.4 论文结构 29-31 第二章 多核处理器片上非一级Cache 优化机制概述 31-49 2.1 Cache 基本概念 31-34 2.1.1 CPI 计算公式 31-32 2.1.2 Cache 替换与放置 32-33 2.1.3 LRU 栈与栈距离直方图SDH 33-34 2.2 多核处理器片上非一级Cache 组织方式 34-39 2.2.1 多核处理器片上非一级Cache 组织方式分类 34-36 2.2.2 片上Cache 空间共享对多核处理器系统性能的影响 36-38 2.2.3 非一致Cache 结构 38-39 2.3 多核处理器片上非一级共享Cache 优化 39-45 2.3.1 Cache 划分机制 40-43 2.3.2 Cache 替换策略 43-44 2.3.3 分布式共享Cache 优化 44-45 2.4 多核处理器片上非一级私有Cache 优化 45-46 2.5 多核处理器片上非一级混合Cache 组织方式优化 46-48 2.6 小结 48-49 第三章 多核处理器片上Cache 访问行为分析方法 49-65 3.1 CMP 在线应用Cache 行为识别方法OABI 49-58 3.1.1 相关研究 49-50 3.1.2 理论分析 50-51 3.1.3 应用Cache 行为类型 51-53 3.1.4 在线应用Cache 行为类型识别 53-55 3.1.5 SPEC CPU2006 基准测试程序Cache 行为类型识别 55-58 3.1.6 硬件开销 58 3.2 Cache 组访问压力测量方法 58-59 3.3 实验方法 59-64 3.3.1 实验配置 60-61 3.3.2 实验负载 61-63 3.3.3 评价指标 63-64 3.4 小结 64-65 第四章 应用行为感知的CMP 共享LLC 替换策略BIIP 65-77 4.1 引言 65-66 4.2 BIIP 机制 66-68 4.2.1 基本思想与总体结构 66-67 4.2.2 BIIP 策略族 67-68 4.3 实验结果与分析 68-75 4.3.1 系统性能实验结果 69 4.3.2 失效率实验结果 69-70 4.3.3 参数敏感性 70-71 4.3.4 Cache 配置敏感性 71-74 4.3.5 BIIP 随系统规模的扩展性 74 4.3.6 多线程负载下的性能 74-75 4.4 硬件开销 75-76 4.5 小结 76-77 第五章 应用行为感知的CMP 私有LLC 优化机制BICS 77-99 5.1 引言 77-78 5.2 BICS 机制 78-83 5.2.1 总体结构 78-80 5.2.2 基本思想 80-81 5.2.3 溢出决定算法 81-82 5.2.4 溢出实现 82-83 5.3 实验结果与分析 83-93 5.3.1 系统性能实验结果 85-88 5.3.2 存储访问分析 88-89 5.3.3 Cache 配置敏感性 89-91 5.3.4 BICS 随系统规模的扩展性 91 5.3.5 与DSR 比较 91-92 5.3.6 多线程负载下的性能 92-93 5.4 BICS 参数敏感性分析 93-97 5.4.1 BICS 对RSTR 的敏感性 93-95 5.4.2 BICS 对m 的敏感性 95 5.4.3 BICS 对k 的敏感性 95-97 5.4.4 BICS 对Thr_(LW) 和Th_(rI) 的敏感性 97 5.5 硬件开销 97 5.6 小结 97-99 第六章 Cache 组访问压力感知的CMP 私有LLC 优化机制BP-NUCA 99-117 6.1 BP-NUCA 机制 99-104 6.1.1 总体结构 99-100 6.1.2 基本思想 100-102 6.1.3 迁移实现机制 102-103 6.1.4 讨论 103-104 6.2 实验结果与分析 104-115 6.2.1 系统性能实验结果 105-107 6.2.2 存储访问分析 107-108 6.2.3 参数敏感性分析 108-109 6.2.4 Cache 配置敏感性 109-112 6.2.5 BP-NUCA 随系统规模的扩展性 112 6.2.6 与DSR 比较 112-113 6.2.7 BICS 与BP-NUCA 的比较 113-114 6.2.8 多线程负载下的性能 114-115 6.3 硬件开销 115-116 6.4 小结 116-117 第七章 非均匀组间访问分布对CMP 系统性能的影响 117-133 7.1 非均匀组间访问分布 117-118 7.2 相关研究 118-120 7.3 单核上的分布优化机制 120-124 7.3.1 SBC 优化机制 121-122 7.3.2 SBC 机制评估 122-124 7.4 CMP 上的分布优化机制 124-126 7.4.1 集中共享Cache 124 7.4.2 私有Cache 124-126 7.5 实验结果与发现 126-130 7.5.1 共享Cache 的实验结果 126-127 7.5.2 私有Cache 组织方式的实验结果 127-130 7.6 小结 130-133 第八章 结束语 133-137 8.1 工作总结 133-135 8.2 研究展望 135-137 致谢 137-141 参考文献 141-157 作者在学期间取得的学术成果 157-159 附录A 缩略表 159-160
|
相似论文
- 我国股票现货市场和股指期货市场之间风险传导的实证研究,F832.51
- TD-SCDMA无线链路控制协议实现研究,TN929.533
- 基于leon3处理器的存储器监控模块设计,TP368.1
- 产品伤害危机的溢出效应及后营销管理探析,F274
- 我国创业板涨跌幅限制对市场波动的影响研究,F224
- 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
- 基于TilePro64多核处理器的H.264高清视频解码软件设计,TN919.81
- 外资对我国纺织业技术溢出效应的分析,F426.81;F752.67
- 出口行为与企业盈利能力关系研究,F224
- FDI技术溢出对中国出口结构变迁的影响,F832.6;F224
- 海底管线在波浪作用下的风险分析和安全评价,P756.2
- 基于GALS的多核互连及任务调度策略研究,TN47
- 跨国公司技术溢出对我国医药制造业技术创新的影响,F426.72;F224
- 基于共享前端的流多核体系结构关键技术研究,TP332
- 基于群智能和冲突规避策略的基因—基因交互作用检测及其并行计算,TP391.41
- 中国区域能源效率收敛性研究,F206;F224
- 外商群体投资治理结构及其溢出效应研究,F224
- 区域因素与外商群体投资溢出效应的关系研究,F224
- 多分辨率图像锥结合FCM的多核并行图像分割算法研究,TP391.41
- 高性能低功耗多核处理器研究,TP332
- DTMB中3780点FFT在多核DSP平台上的实现,TP368.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|