学位论文 > 优秀研究生学位论文题录展示

片上多核处理器缓存子系统优化的研究

作 者: 李建华
导 师: 许胤龙; 薛春
学 校: 中国科学技术大学
专 业: 计算机软件与理论
关键词: Chip Multiprocess On-Chip Networks Cache Coherence STT-RAM Multicast Routing Cache Memory Network Partition Hybrid Cache
分类号: TP332
类 型: 博士论文
年 份: 2013年
下 载: 35次
引 用: 0次
阅 读: 论文下载
 

内容摘要


当前的片上多核处理器需要大容量的缓存系统来降低快速的处理器和慢速的片下主存之间的性能差距。本文认为可以利用和挖掘片上多核处理器的特性来优化其缓存子系统的性能和功耗。本文的工作研究了几个优化片上多核处理器缓存子系统性能的机制。具体来说,本文的研究主题包含三个方面:1)研究和设计高效的多播路由算法来提升片上网络的性能;2)利用当前的新型的非易失性存储器来为片上多核处理器设计低功耗的缓存系统;3)挖掘利用线程的进度信息来设计更加高效的缓存一致性协议。针对第一个研究主题,我们提出了一种高效的片上网络多播路由机制。对于集成越来越多核的片上多核处理器来说,片上网络为其提供了一个高效的、可扩展的通信基础架构。对于多核架构下的片上网络来说,一对多的通信模式是很普遍的。没有有效的多播路由机制的支持,传统的基于单播的片上网络在处理这些多播通信时是很低效的。本文提出了一个基于网络划分的多播路由机制,简称DPM。DPM可以高效地减低片上网络中网络包的平均传输延迟以及降低片上网络的功耗。具体来说,DPM可以根据当前网络中负载均衡级别以及多播通信的链路共享特征来动态地进行路由选择。本文的第二个研究课题是利用一种新型的非易失性存储器(自旋转移矩随机访问存储器,STT-RAM)来为片上多核处理器设计低功耗的缓存。STT-RAM具有快速的访问速度、高存储密度以及可以忽略不计的泄露功率。然而,大规模地应用STT-RAM作为多核处理器的缓存受到STT-RAM的较长的写延迟以及较高的写功耗的约束。最近研究表明过降低STT-RAM的存储单元(磁性隧道结MTJ)的数据保持时间可以有效地提升其写性能。但是保持时间降低的STT-RAM是易失性的,需要通过周期性地刷新其存储单元来避免数据丢失。当这样的STT-RAM用于多核的最后一级缓存(LLC)时,频繁的刷新操作在加剧能量消耗的同时也会给系统的性能带来负面影响。文本提出了一种高效的刷新方案(简称CCear)可以最小化这类STT-RAM上的刷新操作。CCear主要通过与缓存一致性协议以及缓存管理算法进行交互来消除不必要的刷新操作。最后我们提出了一个高效的一致性协议的调整机制来优化运行在片上多核处理器上的并行程序的性能。片上多核处理器的一个主要目标就是通过挖掘线程级别的并行性来继续提升应用程序的性能。但是对于运行在这类系统上的多线程程序来说,由于不均匀的任务分配以及共享资源的冲突,不同的线程通常呈现出不同的执行进度。这种进度的不均匀性是多线程程序性能的最大的瓶颈之一。由于多线程程序内在的同步机制,如内存屏障和锁,运行具有较快进度的线程的核必须停下来等待进度较慢的核。这样的空等不仅会降低系统性能,也会导致功耗的浪费。本文提出了一种线程进度感知的一致性调整机制,简称TEACA。TEACA利用线程的进度信息来动态地调整每个线程的一致性策略,目的是提升片上网络带宽资源的使用效率以及降低功耗。具体来说,TEACA动态地将线程划分为二类:领导者线程与落后者线程。随后,TEACA会根据线程来类别信息为其一致性请求提供特定的一致性策略。

全文目录


ABSTRACT  5-7
Acknowledgement  7-8
Contents  8-11
List of Tables  11-12
List of Figures  12-14
Algorithms  14-15
1 Introduction  15-25
  1.1 Introduction to CMP Memory Subsystem  15-17
  1.2 Background and Motivation  17-23
    1.2.1 Dual-Partitioning Multicasting for On-Chip Networks  17-19
    1.2.2 Exploiting STT-RAM for Low Power Cache Memory  19-21
    1.2.3 Thread Progress Aware Coherence Adaption  21-23
  1.3 Organization  23-25
2 Dual-Partitioning Multicasting for NoC  25-53
  2.1 Introduction  25-27
  2.2 Dual Partitioning Multicasting  27-37
    2.2.1 Multicast Packets Categorization  27-32
    2.2.2 Dual Partitioning Multicasting  32-36
    2.2.3 Unicast Aware Mechanism  36-37
  2.3 DPM Implementation  37-40
    2.3.1 DPM Router Architecture  38-39
    2.3.2 Deadlock Free Analysis  39-40
  2.4 Experiments and Analysis  40-51
    2.4.1 Simulation Methodology  41-42
    2.4.2 Results and Analysis  42-51
  2.5 Conclusion  51-53
3 Exploit STT-RAM for Low Power Cache Memory  53-79
  3.1 Introduction  53-57
  3.2 Related Work  57-60
    3.2.1 Reducing STT-RAM write activities  57-58
    3.2.2 Relaxing STT-RAM retention time  58-59
    3.2.3 Refresh on Volatile Memory  59-60
  3.3 Cache Coherence Enabled Adaptive Refresh  60-69
    3.3.1 System Architecture  60-61
    3.3.2 Cache Coherence Enabled Adaptive Refresh  61-69
  3.4 Experiments and Analysis  69-78
    3.4.1 Experimental Setup  70-71
    3.4.2 Results and Analysis  71-78
  3.5 Conclusion  78-79
4 Thread Progress Aware Coherence Adaption  79-105
  4.1 Introduction  79-82
  4.2 Problem Formulation  82-85
  4.3 Thread ProgrEss Aware Coherence Adaption  85-93
    4.3.1 Overview  85-86
    4.3.2 Thread Progress Estimation  86-89
    4.3.3 Thread Categorization  89-91
    4.3.4 Coherence Adaption  91-93
  4.4 Implementation  93-96
    4.4.1 Integrating Hybrid Protocols  94-95
    4.4.2 Implement TEACA  95-96
  4.5 Experiments and Analysis  96-104
    4.5.1 Evaluation Methodology  96-97
    4.5.2 Overall Results  97-101
    4.5.3 Sensitivity Analysis  101-104
  4.6 Conclusion  104-105
5 Conclusion  105-107
Bibliography  107-117
附录A 论文概要  117-127
  A.1 摘要  117-118
  A.2 论文概要  118-127
    A.2.1 片上多核处理器缓存子系统简介  119-120
    A.2.2 本文的研究内容和贡献  120-127
List of Publications  127-129

相似论文

  1. 多级STT-RAM缓存的优化策略,TP333
  2. 面向非易失性片上存储的编译技术研究,TP314
  3. 基于SOPC的可穿戴机多处理器设计,TP332
  4. 基于多核的数据并行编程平台的研究与实现,TP332
  5. 多核系统中基于温度限制的节能调度算法研究,TP332
  6. 多核Cache替换策略模型研究,TP332
  7. 多处理器全局FP调度算法的研究,TP332
  8. 基于可重构平台的软硬件代码划分技术研究,TP332
  9. 面向事务处理应用的多核共享存储体系结构性能评价,TP332
  10. 系统级模拟器中多处理器间通信模拟技术研究,TP332
  11. 基于多核的任务调度研究与实现,TP332
  12. 基于JTAG的CPU故障注入工具的设计与实现,TP332
  13. 基于NiosⅡ处理器的USB主机系统研究,TP332
  14. 众核结构的基于块的硬件调度器设计研究,TP332
  15. 45纳米制成移动处理器测试方法研究,TP332
  16. 并行离散事件仿真多核并行处理技术研究,TP332
  17. 对数据在异构多核处理器模拟器中进行任务划分的研究,TP332
  18. 基于任务同步及节能的实时调度算法研究,TP332
  19. 基于FPGA的FFT处理器的设计,TP332
  20. 通用的开放BootLoader的设计与实现,TP332
  21. 支持硬件任务可抢占的CPU/FPGA混合架构的软硬件任务迁移研究,TP332

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com