学位论文 > 优秀研究生学位论文题录展示

GPGPU体系结构关键技术论证及模拟器研究与扩展

作 者: 蔡晶
导 师: 邢座程
学 校: 国防科学技术大学
专 业: 电子科学与技术
关键词: 图形处理器 体系模拟器 存储层次 功耗模型
分类号: TP332
类 型: 硕士论文
年 份: 2009年
下 载: 59次
引 用: 1次
阅 读: 论文下载
 

内容摘要


单芯片多核处理器已成为处理器发展的主要方向,GPU作为简单多核处理器的典型代表,对其体系结构的研究具有十分重要的意义。而模拟器是研究处理器体系结构的有效手段。本文首先介绍了统一架构GPU的硬件结构特点,CUDA编程平台以及线程执行模型,然后简单分析了Atila、Qsilver和Barra这三种针对GPU的模拟器并接着详细分析模拟器GPGPU-Sim所模拟的体系结构流水线和软件结构组成,它是本文中用到的实验工具。进而利用模拟器对GPU的存储器层次结构进行了较为深入的研究。首先分析了GPU中流多处理器和存储控制器之间的数量配置关系对系统整体性能的影响,得到了一个对大部分程序有效的二者数量的比例值;通过实验对比了在GPU中数据cache对程序性能的差异,并总结了当前GPU为何不引入数据cache的基本原因;然后利用GPGPU-Sim分析了计算访存比对程序性能的影响并提出一种能够减少对GPU片外存储器访问次数的核间对齐访问的机制;最后,本文在GPGPU-Sim中集成了一个基于WATTCH的功耗模型,并利用该功耗模型分析了使用GPU片上共享内存的编程模式对程序整体能耗的影响并证明这一编程模式能够有效地降低程序执行过程中的能量消耗。本课题研究的内容是国家863计划项目“通用流处理器体系结构关键技术研究”和“可重构异构流处理器的体系结构技术研究”以及国家自然科学基金项目“面向科学计算的异构多流体系结构关键技术研究”的一部分。

全文目录


摘要  8-9
ABSTRACT  9-10
第一章 绪论  10-14
  1.1 论文综述  11-12
  1.2 本文所做的贡献  12-13
  1.3 论文组织结构  13-14
第二章 课题背景  14-24
  2.1 多核处理器的发展趋势  14-15
  2.2 GPGPU的缘起和发展  15-16
  2.3 统一架构GPU的体系结构特点  16-19
  2.4 CUDA编程模型  19-21
  2.5 SIMT线程执行模式  21-22
  2.6 对GPU体系结构进行模拟研究的意义  22-23
  2.7 本章小结  23-24
第三章 主要GPU模拟器的研究和分析  24-42
  3.1 Atila模拟器  25-28
    3.1.1 Atila所模拟的流水线结构  25-26
    3.1.2 Atila模拟器结构框架  26-27
    3.1.3 Atila的基本功能  27-28
    3.1.4 小结  28
  3.2 Qsilver模拟器  28-30
    3.2.1 Qsilver所模拟的流水线结构  28-29
    3.2.2 Qsilver基本功能  29-30
    3.2.3 小结  30
  3.3 Barra模拟器  30-33
    3.3.1 Barra模拟流程  31-32
    3.3.2 Barra基本功能  32-33
    3.3.3 小结  33
  3.4 GPGPU-Sim模拟器分析研究  33-41
    3.4.1 GPGPU-Sim模拟的硬件结构  33-39
    3.4.2 GPGPU-Sim模拟流程  39-40
    3.4.3 GPGPU-Sim软件结构  40-41
  3.5 本章小结  41-42
第四章 GPU存储层次研究  42-59
  4.1 GPU片上计算核与存储控制器的配置关系  42-46
  4.2 GPU存储层次设计理念深度分析  46-50
  4.3 计算访存比对程序性能的影响  50-55
  4.4 核间对齐访问机制  55-57
  4.5 本章小结  57-59
第五章 GPGPU-Sim基于WATTCH功耗模型的扩展  59-70
  5.1 WATTCH模型介绍  60-64
  5.2 GPGPU-Sim中功耗模型实现方法  64-67
  5.3 功耗模型的验证与应用  67-69
  5.4 本章小结  69-70
第六章 结束语  70-72
  6.1 结论  70-71
  6.2 工作展望  71-72
致谢  72-73
参考文献  73-77
作者在学期间取得的学术成果  77-78
附录A GPGPU-Sim源代码文件组成  78-79

相似论文

  1. 基于多核计算平台的视频压缩算法研究,TN919.81
  2. 基于CUDA架构的H.264并行计算研究,TN919.81
  3. Web图像搜索中基于GPU的图像分割技术术究,TP391.41
  4. 流体场景的屏幕空间实时绘制研究,TP391.41
  5. 基于GPU的H.264到AVS视频转码并行设计,TN919.81
  6. 深亚微米工艺下微处理器体系结构级功耗模型相关技术研究,TP332
  7. H.264并行编码算法设计及其在GPU上的实现,TP391.41
  8. 单张图像去雾研究,TP391.41
  9. 基于高性能计算的脑电信号分析,R318.0
  10. 基于FPGA的3D图形处理器IP核的设计与实现,TP391.41
  11. 基于GPU的医学图像三维重建算法及其应用,TP391.41
  12. Java存储管理系统低功耗垃圾收集技术研究,TP311.10
  13. 基于GPU的程序分析与并行化研究,TP332
  14. 基于GPU的高速正则表达式匹配技术研究,TP393.08
  15. 基于地理空间信息网格的全球空间数据管理与渲染的关键技术研究,TP391.41
  16. 基于GPU的椭圆曲线相关算法并行化效率分析,TN918.1
  17. 基于GPU的时域有限差分方法及应用于LED性能优化的研究,TN312.8
  18. 三维锥束CT图像重建加速技术研究,TP391.41
  19. 密码算法的能量分析研究,TN918.1
  20. DTS在放疗摆位中的应用研究,TP391.41
  21. 磁共振稀疏重建算法与直接离散傅里叶变换重建算法并行处理加速方法的研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com