学位论文 > 优秀研究生学位论文题录展示
片上多核处理器缓存子系统优化的研究
作 者: 李建华
导 师: 许胤龙; 薛春
学 校: 中国科学技术大学
专 业: 计算机软件与理论
关键词: Chip Multiprocess On-Chip Networks Cache Coherence STT-RAM Multicast Routing Cache Memory Network Partition Hybrid Cache
分类号: TP332
类 型: 博士论文
年 份: 2013年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
当前的片上多核处理器需要大容量的缓存系统来降低快速的处理器和慢速的片下主存之间的性能差距。本文认为可以利用和挖掘片上多核处理器的特性来优化其缓存子系统的性能和功耗。本文的工作研究了几个优化片上多核处理器缓存子系统性能的机制。具体来说,本文的研究主题包含三个方面:1)研究和设计高效的多播路由算法来提升片上网络的性能;2)利用当前的新型的非易失性存储器来为片上多核处理器设计低功耗的缓存系统;3)挖掘利用线程的进度信息来设计更加高效的缓存一致性协议。针对第一个研究主题,我们提出了一种高效的片上网络多播路由机制。对于集成越来越多核的片上多核处理器来说,片上网络为其提供了一个高效的、可扩展的通信基础架构。对于多核架构下的片上网络来说,一对多的通信模式是很普遍的。没有有效的多播路由机制的支持,传统的基于单播的片上网络在处理这些多播通信时是很低效的。本文提出了一个基于网络划分的多播路由机制,简称DPM。DPM可以高效地减低片上网络中网络包的平均传输延迟以及降低片上网络的功耗。具体来说,DPM可以根据当前网络中负载均衡级别以及多播通信的链路共享特征来动态地进行路由选择。本文的第二个研究课题是利用一种新型的非易失性存储器(自旋转移矩随机访问存储器,STT-RAM)来为片上多核处理器设计低功耗的缓存。STT-RAM具有快速的访问速度、高存储密度以及可以忽略不计的泄露功率。然而,大规模地应用STT-RAM作为多核处理器的缓存受到STT-RAM的较长的写延迟以及较高的写功耗的约束。最近研究表明过降低STT-RAM的存储单元(磁性隧道结MTJ)的数据保持时间可以有效地提升其写性能。但是保持时间降低的STT-RAM是易失性的,需要通过周期性地刷新其存储单元来避免数据丢失。当这样的STT-RAM用于多核的最后一级缓存(LLC)时,频繁的刷新操作在加剧能量消耗的同时也会给系统的性能带来负面影响。文本提出了一种高效的刷新方案(简称CCear)可以最小化这类STT-RAM上的刷新操作。CCear主要通过与缓存一致性协议以及缓存管理算法进行交互来消除不必要的刷新操作。最后我们提出了一个高效的一致性协议的调整机制来优化运行在片上多核处理器上的并行程序的性能。片上多核处理器的一个主要目标就是通过挖掘线程级别的并行性来继续提升应用程序的性能。但是对于运行在这类系统上的多线程程序来说,由于不均匀的任务分配以及共享资源的冲突,不同的线程通常呈现出不同的执行进度。这种进度的不均匀性是多线程程序性能的最大的瓶颈之一。由于多线程程序内在的同步机制,如内存屏障和锁,运行具有较快进度的线程的核必须停下来等待进度较慢的核。这样的空等不仅会降低系统性能,也会导致功耗的浪费。本文提出了一种线程进度感知的一致性调整机制,简称TEACA。TEACA利用线程的进度信息来动态地调整每个线程的一致性策略,目的是提升片上网络带宽资源的使用效率以及降低功耗。具体来说,TEACA动态地将线程划分为二类:领导者线程与落后者线程。随后,TEACA会根据线程来类别信息为其一致性请求提供特定的一致性策略。
|
全文目录
ABSTRACT 5-7 Acknowledgement 7-8 Contents 8-11 List of Tables 11-12 List of Figures 12-14 Algorithms 14-15 1 Introduction 15-25 1.1 Introduction to CMP Memory Subsystem 15-17 1.2 Background and Motivation 17-23 1.2.1 Dual-Partitioning Multicasting for On-Chip Networks 17-19 1.2.2 Exploiting STT-RAM for Low Power Cache Memory 19-21 1.2.3 Thread Progress Aware Coherence Adaption 21-23 1.3 Organization 23-25 2 Dual-Partitioning Multicasting for NoC 25-53 2.1 Introduction 25-27 2.2 Dual Partitioning Multicasting 27-37 2.2.1 Multicast Packets Categorization 27-32 2.2.2 Dual Partitioning Multicasting 32-36 2.2.3 Unicast Aware Mechanism 36-37 2.3 DPM Implementation 37-40 2.3.1 DPM Router Architecture 38-39 2.3.2 Deadlock Free Analysis 39-40 2.4 Experiments and Analysis 40-51 2.4.1 Simulation Methodology 41-42 2.4.2 Results and Analysis 42-51 2.5 Conclusion 51-53 3 Exploit STT-RAM for Low Power Cache Memory 53-79 3.1 Introduction 53-57 3.2 Related Work 57-60 3.2.1 Reducing STT-RAM write activities 57-58 3.2.2 Relaxing STT-RAM retention time 58-59 3.2.3 Refresh on Volatile Memory 59-60 3.3 Cache Coherence Enabled Adaptive Refresh 60-69 3.3.1 System Architecture 60-61 3.3.2 Cache Coherence Enabled Adaptive Refresh 61-69 3.4 Experiments and Analysis 69-78 3.4.1 Experimental Setup 70-71 3.4.2 Results and Analysis 71-78 3.5 Conclusion 78-79 4 Thread Progress Aware Coherence Adaption 79-105 4.1 Introduction 79-82 4.2 Problem Formulation 82-85 4.3 Thread ProgrEss Aware Coherence Adaption 85-93 4.3.1 Overview 85-86 4.3.2 Thread Progress Estimation 86-89 4.3.3 Thread Categorization 89-91 4.3.4 Coherence Adaption 91-93 4.4 Implementation 93-96 4.4.1 Integrating Hybrid Protocols 94-95 4.4.2 Implement TEACA 95-96 4.5 Experiments and Analysis 96-104 4.5.1 Evaluation Methodology 96-97 4.5.2 Overall Results 97-101 4.5.3 Sensitivity Analysis 101-104 4.6 Conclusion 104-105 5 Conclusion 105-107 Bibliography 107-117 附录A 论文概要 117-127 A.1 摘要 117-118 A.2 论文概要 118-127 A.2.1 片上多核处理器缓存子系统简介 119-120 A.2.2 本文的研究内容和贡献 120-127 List of Publications 127-129
|
相似论文
- 多级STT-RAM缓存的优化策略,TP333
- 面向非易失性片上存储的编译技术研究,TP314
- 基于SOPC的可穿戴机多处理器设计,TP332
- 基于多核的数据并行编程平台的研究与实现,TP332
- 多核系统中基于温度限制的节能调度算法研究,TP332
- 多核Cache替换策略模型研究,TP332
- 多处理器全局FP调度算法的研究,TP332
- 基于可重构平台的软硬件代码划分技术研究,TP332
- 面向事务处理应用的多核共享存储体系结构性能评价,TP332
- 系统级模拟器中多处理器间通信模拟技术研究,TP332
- 基于多核的任务调度研究与实现,TP332
- 基于JTAG的CPU故障注入工具的设计与实现,TP332
- 基于NiosⅡ处理器的USB主机系统研究,TP332
- 众核结构的基于块的硬件调度器设计研究,TP332
- 45纳米制成移动处理器测试方法研究,TP332
- 并行离散事件仿真多核并行处理技术研究,TP332
- 对数据在异构多核处理器模拟器中进行任务划分的研究,TP332
- 基于任务同步及节能的实时调度算法研究,TP332
- 基于FPGA的FFT处理器的设计,TP332
- 通用的开放BootLoader的设计与实现,TP332
- 支持硬件任务可抢占的CPU/FPGA混合架构的软硬件任务迁移研究,TP332
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|