学位论文 > 优秀研究生学位论文题录展示
同构众核处理器的片上存储管理与同步机制研究
作 者: 陈小文
导 师: 陈书明
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: 同构众核处理器 片上网络 分布式共享存储 微代码 信号灯同步 动态缓冲分配 栅栏同步 协同通信
分类号: TP332
类 型: 博士论文
年 份: 2011年
下 载: 46次
引 用: 0次
阅 读: 论文下载
内容摘要
随着集成电路技术的迅猛发展和应用需求的强力推动,片上系统逐渐由基于总线的单核或少量多核结构发展到基于片上网络的大量多核(众核)结构。由于每个处理器核和路由器完全相同,同构众核处理器具有非常好的规整性和可扩展性,易于挖掘多个处理器核协同并行工作的潜力。同构众核处理器在带来强大并行计算能力的同时,也对体系结构的设计提出了新的挑战。其中如何提供有效的存储管理和高效的同步机制以便能充分挖掘同构众核处理器的并行性能,已经成为同构众核体系结构设计领域的重要课题。本文首先分析了同构众核处理器的结构特征和并行程序行为,构建了同构众核处理器平台和性能评价模型。然后,从“片上可编程存储管理技术”和“高效双通道硬件同步机制”两大方面对同构众核处理器的存储和同步问题进行了深入细致的研究。本文对提出的“面向分布式共享存储的数据管理引擎”、“混合式分布式共享存储空间的静态和动态划分技术”、“基于动态缓冲分配的双通道快速信号灯同步机制”和“基于协同通信的双通道快速栅栏同步机制”从统计硬件开销、建立性能评价函数以及开展综合激励实验和应用程序实验等多个方面进行了详细的性能评测。本文的主要工作与创新点体现在以下几个方面:1)通过引入等效串行报文和等效串行通信的概念建立了量化的网络通信模型,进而建立了在均匀和热量两种网络流量下的同构众核处理器性能评价模型,并得出在结构设计和程序开发上如何权衡“核间并行—网络通信”性能矛盾体的建议,指导后续研究工作的开展。2)为了增强同构众核处理器的适用范围,采用微代码方法[1]设计并实现了数据管理引擎,用于片上分布式共享存储管理。数据管理引擎允许使用者通过微代码编程方式根据不同的应用实现各种不同的功能。在结构上,采用双协处理器设计,并发处理来自本地节点和通过片上网络来自远程节点的请求。在编程上,提出了基于命令触发的微代码执行机制,开发了微代码函数库和微代码编程流程。结合微代码编程流程,本文通过微代码实现了分布式共享存储功能。实验结果表明,随着网络规模的扩大,数据管理引擎引入的延迟开销与网络通信开销相比非常小。本文提出的微代码解决方案的延迟开销控制合理,延迟效率接近纯硬件解决方案,同时具有与纯软件解决方案相同的灵活性。3)为了降低虚地址向实地址转换的开销对系统性能的影响,提出了一种混合式的分布式共享存储空间,并开发了该空间的静态和动态划分技术。在混合式分布式共享存储空间中,本地存储器划分为私有和共享两部分,并且采用物理和逻辑两种寻址模式。这样设计的理念是:对共享数据采用全局寻址的虚地址访问,同时对私有数据采用快速寻址的实地址访问。在静态划分技术下,混合式分布式共享存储空间的构成在系统设计时确定,在系统运行时不会发生任何改变。在动态划分技术下,混合式分布式共享存储空间的私有区域和共享区域可在系统运行时根据并行程序中数据的属性进行动态调整。实验结果表明,与传统分布式共享存储空间相比,混合式分布式共享存储空间具有性能优势。在我们的实验中,性能的提升比例最高为37.89%,最低为3.68%。4)为了降低信号灯同步串行化对系统性能的影响,从消除头阻塞和提高缓冲利用率角度出发,提出了一种基于动态缓冲分配的双通道快速信号灯同步机制。每个节点包含一个基于动态缓冲分配的双通道快速信号灯同步模块。该模块提供了一组同步锁变量,全局寻址和对所有节点可见。该模块并发响应来自本地节点和通过片上网络来自远程节点的同步请求,并动态分配缓冲资源,在逻辑上形成多个与同步变量一一对应的虚拟缓冲,目的是消除头阻塞和提高缓冲利用率。实验结果显示,与旋转锁相比,该同步机制性能较优,为同构众核处理器提供了一个高效快速的信号灯同步解决方案。5)为了降低栅栏同步串行化对系统性能的影响,从优化网络通信开销角度出发,提出了一种基于协同通信的双通道快速栅栏同步机制。在该方法下,栅栏同步报文以广播的方式在片上网络中快速传输并且在传输过程中通过不断合并消除栅栏获取同步间的网络竞争。在路由器中设计了协同通信模块,用于支持栅栏同步报文的协同通信。在协同通信过程中,路由器彼此协同工作,共同完成一次快速高效的栅栏同步。实验结果表明,在协同通信方法下,all-to-all算法由性能最差变为性能最佳的栅栏同步算法,具有非常好的可扩展性。
|
全文目录
摘要 12-14 Abstract 14-17 第一章 绪论 17-37 1.1 课题研究背景 17-24 1.1.1 处理器的发展趋势 17-21 1.1.2 众核处理器的研究现状 21-24 1.2 众核处理器的存储与同步研究面临的挑战及其对策思考 24-27 1.2.1 片上存储管理面临的挑战及其对策思考 24-26 1.2.2 众核同步机制面临的挑战及其对策思考 26-27 1.3 相关研究工作 27-34 1.3.1 系统建模 27-28 1.3.2 分布式共享存储 28 1.3.3 微代码方法 28-30 1.3.4 Cache 技术 30-31 1.3.5 存储空间的划分 31-32 1.3.6 信号灯同步机制 32 1.3.7 栅栏同步机制 32-34 1.4 本文的工作与创新点 34-36 1.5 论文结构 36-37 第二章 基于二维Mesh 片上网络架构的同构众核处理器特征分析与性能评价 37-55 2.1 引言 37 2.2 同构众核处理器结构特征及数据并行程序行为分析 37-38 2.3 性能评价模型及分析 38-49 2.3.1 问题描述 38-39 2.3.2 符号系统 39 2.3.3 网络通信开销模型及分析 39-44 2.3.4 同构众核处理器性能评价模型及分析 44-49 2.4 实验与结论 49-54 2.4.1 实验平台 49-50 2.4.2 应用程序例子 50-51 2.4.3 理论加速比计算 51-52 2.4.4 分析与讨论 52-54 2.5 本章小结 54-55 第三章 面向分布式共享存储的数据管理引擎结构设计与编程开发 55-81 3.1 引言 55 3.2 使用数据管理引擎的同构众核处理器 55-56 3.3 结构设计 56-64 3.3.1 整体结构 56 3.3.2 内核接口单元 56-59 3.3.3 网络接口单元 59-61 3.3.4 协处理器 61-62 3.3.5 同步单元 62-64 3.3.6 微指令存储器 64 3.4 硬件实现 64 3.5 编程开发 64-68 3.5.1 微指令设计 64-65 3.5.2 基于命令触发的微代码执行机制 65-67 3.5.3 微代码函数库 67-68 3.5.4 微代码开发流程 68 3.6 微代码实例 68-71 3.6.1 实例1:虚地址向实地址转换 68-69 3.6.2 实例2:共享存储访问 69-70 3.6.3 实例3:同步 70 3.6.4 实例4:基于全映射目录的Cache 协议 70-71 3.7 实验与结论 71-80 3.7.1 实验平台 72 3.7.2 符号系统和延迟开销函数 72-73 3.7.3 综合激励实验结果及分析 73-78 3.7.4 应用程序实验结果及分析 78-80 3.8 本章小结 80-81 第四章 混合式分布式共享存储空间的静态和动态划分技术 81-99 4.1 引言 81-82 4.2 混合式分布式共享存储空间 82-86 4.2.1 目标平台 82-83 4.2.2 空间构成 83-84 4.2.3 并发寻址流程 84-85 4.2.4 两种划分方式 85-86 4.3 动态划分技术 86-89 4.3.1 基本模式 86-87 4.3.2 “生产者—消费者”模式 87-89 4.3.3 存储一致性问题 89 4.4 性能分析 89-93 4.4.1 符号系统 90 4.4.2 性能评价函数及分析 90-93 4.5 实验与结论 93-98 4.5.1 实验平台 93 4.5.2 应用程序1:矩阵乘 93-95 4.5.3 应用程序2:2D FFT 95-96 4.5.4 应用程序3:H.264/AVC 编码 96-98 4.6 本章小结 98-99 第五章 基于动态缓冲分配的双通道快速信号灯同步机制 99-113 5.1 引言 99 5.2 采用双通道快速信号灯同步机制的同构众核处理器 99-100 5.3 基于动态缓冲分配的双通道快速信号灯同步模块 100-106 5.3.1 结构设计 100-102 5.3.2 同步机制 102-106 5.3.3 硬件实现 106 5.4 实验与结论 106-112 5.4.1 实验平台 106-107 5.4.2 符号系统 107 5.4.3 综合激励实验结果及分析 107-110 5.4.4 应用程序实验结果及分析 110-112 5.5 本章小结 112-113 第六章 基于协同通信的双通道快速栅栏同步机制 113-127 6.1 引言 113 6.2 采用双通道快速栅栏同步机制的同构众核处理器 113-114 6.3 基于协同通信的all-to-all 栅栏同步机制 114-121 6.3.1 协同通信 114-116 6.3.2 报文格式 116 6.3.3 结构设计 116-120 6.3.4 硬件实现 120-121 6.4 实验与结论 121-125 6.4.1 实验平台 121 6.4.2 符号系统 121 6.4.3 综合激励实验结果及分析 121-124 6.4.4 应用程序实验结果及分析 124-125 6.5 本章小结 125-127 第七章 结论与展望 127-133 7.1 本文主要工作 127-130 7.2 研究展望 130-133 致谢 133-135 参考文献 135-147 作者在学期间取得的学术成果 147-153 附录A 数据管理引擎的配置寄存器组 153-155 附录B 数据管理引擎的微操作 155-157
|
相似论文
- 基于协同通信的同步、信道估计和分集技术研究,TN919.3
- 加窗技术对协同OFDM系统ICI性能的改进,TN919.3
- 面向高效NoC路由差错码设计,TN47
- 协同通信中的中继协作策略研究,TN92
- 基于NoC的软错误点到点容错机制及面向可靠性的应用映射算法研究,TP302.8
- 基于冗余传输的片上网络软错误的容错方法研究,TP302.8
- 2D MESH片上网络容错路由算法研究,TP302.8
- 高性能低功耗多核处理器研究,TP332
- 片上网络可靠包传输算法研究,TN47
- 单片机嵌入式操作系统研究与NoC结构的操作系统内核设计,TP316.2
- MESH网络协作节点选择机制研究,TN929.5
- 无线协同通信中的MAC协议研究,TN929.5
- 片上网络通信协议与QoS保障机制研究,TN47
- 片上网络层次划分及多目标映射技术研究,TN47
- 片上网络映射及路径分配问题研究,TN47
- 低功耗NoC路由器结构研究,TN47
- 片上网络拓扑结构的研究,TN47
- 片上网络路由算法和映射算法研究,TN47
- 片上网络路由算法研究,TN47
- 片上网络服务质量机制研究,TN47
- 片上网络容错路由算法研究,TN47
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|