学位论文 > 优秀研究生学位论文题录展示

多核处理器片上Cache访问行为分析与优化机制研究

作　者: 贾小敏
导　师: 张民选
学　校: 国防科学技术大学
专　业: 电子科学与技术
关键词: 多核处理器片上非一级Cache 片上末级Cache 应用Cache行为识别溢出非均匀Cache组间存储访问分布
分类号: TP332
类　型: 博士论文
年　份: 2011年
下　载: 209次
引　用: 2次
阅　读: 论文下载

内容摘要

多核处理器(Chip Multi-Processors,CMP)相比单核处理器具有功耗低、复杂度小、可扩展性好和性价比高等优势,已成为工业界和学术界的主流微处理器体系结构。近来在服务器和数据中心等领域,服务聚合(Server Consolidation)和虚拟计算(Virtual Computing)成为趋势,使多样化的多道程序负载成为CMP平台上的主要负载形式。多核处理器多采用相对简单的处理器核,设计复杂性和性能瓶颈主要集中在存储系统上。随着半导体制造工艺进入纳米时代,多核处理器平台上的层次Cache系统面临着片外访问延迟大、片外访问带宽有限、负载多样化、片上互连线延迟不断增长和应用间负面相互干扰等挑战。片上层次Cache系统特别是非一级Cache(Non-First Level Cache)已成为当前多核处理器平台上的重要课题之一。Cache系统的有效性和多核处理器的系统性能与Cache上承受的Cache访问行为密切相关。分析Cache系统上的Cache访问行为特性对于研究多核处理器Cache系统的优化、管理机制有重要意义。本文针对多核处理器中片上非一级Cache的访问行为分析方法和优化机制展开研究,重点关注多道程序负载,兼顾多线程负载。本文主要取得以下研究成果:1.提出一种在片上非一级Cache中在线识别应用Cache行为类型的方法OABI。该方法基于理论分析和对SPEC CPU2006测试程序集中应用的Cache访问行为特征的统计,根据应用的失效率随Cache容量的变化趋势和基准失效数将应用Cache行为分为五类,并引入相应的硬件支持实现了对应用Cache行为类型的在线识别。该方法可用于指导CMP片上非一级Cache的资源管理和优化。2.以OABI方法为基础,提出了基于应用Cache行为类型在线识别的CMP共享片上末级Cache(Last-Level Cache,LLC)替换策略BIIP。该策略针对共享LLC,结合在线应用Cache行为类型识别和替换策略,利用OABI识别出每个应用的Cache行为类型;对不同类型的应用,根据其特性对其载入块分别采用最适合的Cache插入策略。实验证明,利用在线Cache行为类型识别指导应用的Cache替换策略,能有效地改善共享LLC中的空间利用。3.以OABI方法为基础,提出了基于应用Cache行为类型在线识别的CMP私有LLC的优化机制BICS。该机制基于具有访问延迟小和性能隔离好等优势的私有方式组织的LLC,在运行时利用OABI分别独立动态地识别各应用的Cache行为类型,根据应用的Cache行为类型决定在私有LLC逐出一个块时是否将其寄存到其它同级LLC中;而借出自身容量的私有LLC,在保证自身基本性能的基础上允许其它应用的块替换其自身的部分有效块。BICS在容量借用过程中充分考虑私有LLC间的非一致延迟,在提高空间利用率的同时力图优化LLC的平均命中延迟。实验表明该机制可有效改善私有LLC的空间利用,提高CMP系统的整体性能。4.提出了一种基于Cache组访问压力测量的CMP私有LLC的优化机制BP-NUCA。该机制同样基于具有访问延迟小和性能隔离好等优势的私有方式组织的LLC,引入低开销的硬件结构来在线动态测量每个Cache组实际承受的Cache访问压力,根据该信息将访问压力较大的组的逐出块迁移到其它私有LLC上索引地址相同而Cache访问压力较小的组中。BP-NUCA在迁移过程中也充分考虑了私有LLC间的非一致延迟,在提高空间利用率的同时力图优化LLC的平均命中延迟。实验结果表明该机制可有效平衡不同私有LLC上索引地址相同的组间的空间利用,提高CMP系统的整体性能。5.研究了非均匀Cache组间存储访问分布这一现象对CMP系统性能的影响。提出几种分别试图平衡共享、私有CMP片上非一级Cache中存储访问在Cache组间的分布的优化机制。通过评估这几种优化机制得出结论:在执行多道程序负载的CMP系统上,同时执行的多个应用之间的交互一定程度上减弱了非均匀Cache组间存储访问分布对系统性能的负面影响,特别针对非均匀Cache组间存储访问分布进行优化的机制对CMP片上非一级Cache意义不大。

全文目录

摘要  12-14
ABSTRACT  14-17
第一章绪论  17-31
  1.1 课题背景  17-25
    1.1.1 多核处理器成为主流  17-21
    1.1.2 应用聚合的趋势  21-22
    1.1.3 存储墙仍是问题  22-25
  1.2 课题研究内容  25-27
    1.2.1 片上非一级Cache 访问行为分析方法  25-26
    1.2.2 片上非一级Cache 优化机制  26-27
  1.3 论文主要工作及创新  27-29
  1.4 论文结构  29-31
第二章多核处理器片上非一级Cache 优化机制概述  31-49
  2.1 Cache 基本概念  31-34
    2.1.1 CPI 计算公式  31-32
    2.1.2 Cache 替换与放置  32-33
    2.1.3 LRU 栈与栈距离直方图SDH  33-34
  2.2 多核处理器片上非一级Cache 组织方式  34-39
    2.2.1 多核处理器片上非一级Cache 组织方式分类  34-36
    2.2.2 片上Cache 空间共享对多核处理器系统性能的影响  36-38
    2.2.3 非一致Cache 结构  38-39
  2.3 多核处理器片上非一级共享Cache 优化  39-45
    2.3.1 Cache 划分机制  40-43
    2.3.2 Cache 替换策略  43-44
    2.3.3 分布式共享Cache 优化  44-45
  2.4 多核处理器片上非一级私有Cache 优化  45-46
  2.5 多核处理器片上非一级混合Cache 组织方式优化  46-48
  2.6 小结  48-49
第三章多核处理器片上Cache 访问行为分析方法  49-65
  3.1 CMP 在线应用Cache 行为识别方法OABI  49-58
    3.1.1 相关研究  49-50
    3.1.2 理论分析  50-51
    3.1.3 应用Cache 行为类型  51-53
    3.1.4 在线应用Cache 行为类型识别  53-55
    3.1.5 SPEC CPU2006 基准测试程序Cache 行为类型识别  55-58
    3.1.6 硬件开销  58
  3.2 Cache 组访问压力测量方法  58-59
  3.3 实验方法  59-64
    3.3.1 实验配置  60-61
    3.3.2 实验负载  61-63
    3.3.3 评价指标  63-64
  3.4 小结  64-65
第四章应用行为感知的CMP 共享LLC 替换策略BIIP  65-77
  4.1 引言  65-66
  4.2 BIIP 机制  66-68
    4.2.1 基本思想与总体结构  66-67
    4.2.2 BIIP 策略族  67-68
  4.3 实验结果与分析  68-75
    4.3.1 系统性能实验结果  69
    4.3.2 失效率实验结果  69-70
    4.3.3 参数敏感性  70-71
    4.3.4 Cache 配置敏感性  71-74
    4.3.5 BIIP 随系统规模的扩展性  74
    4.3.6 多线程负载下的性能  74-75
  4.4 硬件开销  75-76
  4.5 小结  76-77
第五章应用行为感知的CMP 私有LLC 优化机制BICS  77-99
  5.1 引言  77-78
  5.2 BICS 机制  78-83
    5.2.1 总体结构  78-80
    5.2.2 基本思想  80-81
    5.2.3 溢出决定算法  81-82
    5.2.4 溢出实现  82-83
  5.3 实验结果与分析  83-93
    5.3.1 系统性能实验结果  85-88
    5.3.2 存储访问分析  88-89
    5.3.3 Cache 配置敏感性  89-91
    5.3.4 BICS 随系统规模的扩展性  91
    5.3.5 与DSR 比较  91-92
    5.3.6 多线程负载下的性能  92-93
  5.4 BICS 参数敏感性分析  93-97
    5.4.1 BICS 对RSTR 的敏感性  93-95
    5.4.2 BICS 对m 的敏感性  95
    5.4.3 BICS 对k 的敏感性  95-97
    5.4.4 BICS 对Thr_(LW) 和Th_(rI) 的敏感性  97
  5.5 硬件开销  97
  5.6 小结  97-99
第六章 Cache 组访问压力感知的CMP 私有LLC 优化机制BP-NUCA  99-117
  6.1 BP-NUCA 机制  99-104
    6.1.1 总体结构  99-100
    6.1.2 基本思想  100-102
    6.1.3 迁移实现机制  102-103
    6.1.4 讨论  103-104
  6.2 实验结果与分析  104-115
    6.2.1 系统性能实验结果  105-107
    6.2.2 存储访问分析  107-108
    6.2.3 参数敏感性分析  108-109
    6.2.4 Cache 配置敏感性  109-112
    6.2.5 BP-NUCA 随系统规模的扩展性  112
    6.2.6 与DSR 比较  112-113
    6.2.7 BICS 与BP-NUCA 的比较  113-114
    6.2.8 多线程负载下的性能  114-115
  6.3 硬件开销  115-116
  6.4 小结  116-117
第七章非均匀组间访问分布对CMP 系统性能的影响  117-133
  7.1 非均匀组间访问分布  117-118
  7.2 相关研究  118-120
  7.3 单核上的分布优化机制  120-124
    7.3.1 SBC 优化机制  121-122
    7.3.2 SBC 机制评估  122-124
  7.4 CMP 上的分布优化机制  124-126
    7.4.1 集中共享Cache  124
    7.4.2 私有Cache  124-126
  7.5 实验结果与发现  126-130
    7.5.1 共享Cache 的实验结果  126-127
    7.5.2 私有Cache 组织方式的实验结果  127-130
  7.6 小结  130-133
第八章结束语  133-137
  8.1 工作总结  133-135
  8.2 研究展望  135-137
致谢  137-141
参考文献  141-157
作者在学期间取得的学术成果  157-159
附录A 缩略表  159-160

多核处理器片上Cache访问行为分析与优化机制研究

内容摘要

全文目录

相似论文