学位论文 > 优秀研究生学位论文题录展示

基于GPU的程序分析与并行化研究

作 者: 王涛
导 师: 姚远
学 校: 解放军信息工程大学
专 业: 计算机软件与理论
关键词: 图形处理器 GPU通用计算 程序分析与并行化 统一计算设备架构 开销模型
分类号: TP332
类 型: 硕士论文
年 份: 2010年
下 载: 282次
引 用: 2次
阅 读: 论文下载
 

内容摘要


高性能计算机是一个国家经济和科技实力的综合体现,也是促进经济、科技发展,社会进步和国防安全的重要工具,已成为世界各国竞相争夺的战略制高点。在人们追求高性价比的并行计算机系统的同时,在许多专用领域的专用计算部件也发挥着其强大的并行计算能力。图形处理器(GPU,Graphics Processing Unit)就是一种用于通用计算的专用加速部件。随着微电子技术的发展,图形处理器,无论是在集成度还是在数据处理能力上都已远远超过通用处理器,特别是在可编程能力、并行处理能力和应用范围方面得到不断提升和扩展,成为当前计算机系统中具备高性能处理能力的部件。目前,国内外针基于GPU的并行化研究,一般都是在原有串行程序的基础上,由熟悉GPU硬件结构的计算机专业人员进行程序改写。但由于串行程序并行化后带来的各种开销,使得并行化后的执行效率可能不及串行程序的执行效率。因此,如何合理地对串行程序进行分析,评估串行程序并行化后在GPU上的执行效率变得尤为重要。本文针对如何评估串行程序并行化后在GPU上的执行效率展开研究,主要研究内容如下:一、研究支持CUDA架构的GPU多线程硬件体系结构以及编程模型。在分析目前高性能计算和GPU通用计算的现状的基础上,详细阐述了GPU在通用计算中的优势,对图形处理器的硬件结构以及编程模型进行深入研究,为开销模型建立提供理论基础。二、为实现循环体工作量的精确计算,本文在深入研究传统的数据依赖关系分析方法的基础上,针对SUIF无法准确计算循环体上下界不固定时的迭代次数的情况,提出了一种改进的方法。三、为了预测串行程序并行化后在GPU上的执行效率,提出了一种基于CUDA架构的GPU并行开销模型,该模型综合考虑了程序并行化的各种开销(设备启动开销、数据传输开销以及GPU执行开销)。通过该模型可以预测出串行程序用GPU加速时的时间开销,将其与串行执行的开销进行对比,从而判断是否用于GPU加速,进而指导串行程序的并行化。

全文目录


表目录  6-7
图目录  7-9
摘要  9-10
ABSTRACT  10-11
第一章 绪论  11-19
  1.1 高性能计算现状  11-12
  1.2 图形处理器通用计算现状研究  12-16
  1.3 课题来源  16-17
  1.4 本文主要研究工作  17
  1.5 论文结构  17-19
第二章 GPU 并行计算架构研究  19-29
  2.1 引言  19-20
  2.2 GPU 硬件架构  20-24
    2.2.1 流处理器阵列  21-22
    2.2.2 存储器系统  22-24
  2.3 CUDA 架构  24-28
    2.3.1 CUDA 编程模型  25-26
    2.3.2 CUDA 执行模型  26-28
    2.3.3 NVCC 编译框架  28
  2.4 本章小结  28-29
第三章 基于程序静态分析的循环工作量评估算法  29-39
  3.1 引言  29
  3.2 并行性分析  29-34
    3.2.1 数据依赖关系分析  30-33
    3.2.2 依赖关系分析的测试算法  33-34
  3.3 循环体工作量估算  34-38
    3.3.1 循环迭代次数计算  34-37
    3.3.2 循环体指令数计算  37-38
  3.4 本章小结  38-39
第四章 基于CUDA 架构的GPU 并行开销模型设计  39-53
  4.1 引言  39
  4.2 开销模型提出  39-42
  4.3 开销模型建立  42-52
    4.3.1 设备启动开销估算  43
    4.3.2 数据传输开销估算  43-44
    4.3.3 GPU 计算开销估算  44-52
  4.4 本章小结  52-53
第五章 实验与分析  53-61
  5.1 实验环境  53
  5.2 测试与分析  53-60
    5.2.1 测试一:矩阵乘  53-57
    5.2.2 测试二:FDK 算法  57-60
  5.3 本章小结  60-61
结束语  61-62
参考文献  62-66
作者简历攻读硕士学位期间完成的主要工作  66-67
致谢  67

相似论文

  1. 基于多核计算平台的视频压缩算法研究,TN919.81
  2. 基于CUDA架构的H.264并行计算研究,TN919.81
  3. Web图像搜索中基于GPU的图像分割技术术究,TP391.41
  4. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  5. 流体场景的屏幕空间实时绘制研究,TP391.41
  6. 基于GPU的H.264到AVS视频转码并行设计,TN919.81
  7. H.264并行编码算法设计及其在GPU上的实现,TP391.41
  8. 单张图像去雾研究,TP391.41
  9. 基于高性能计算的脑电信号分析,R318.0
  10. 基于GPU的密码算法实现技术研究,TP393.08
  11. GPU通用计算与基于SIFT特征的图像匹配并行算法研究,TP391.41
  12. 基于粒子模拟问题的GPU高性能计算系统,TP338
  13. 基于FPGA的3D图形处理器IP核的设计与实现,TP391.41
  14. 基于GPU的医学图像三维重建算法及其应用,TP391.41
  15. 基于GPU的高速正则表达式匹配技术研究,TP393.08
  16. 基于地理空间信息网格的全球空间数据管理与渲染的关键技术研究,TP391.41
  17. 基于GPU的椭圆曲线相关算法并行化效率分析,TN918.1
  18. 基于GPU的时域有限差分方法及应用于LED性能优化的研究,TN312.8
  19. 三维锥束CT图像重建加速技术研究,TP391.41
  20. DTS在放疗摆位中的应用研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com