学位论文 > 优秀研究生学位论文题录展示

基于GPU的程序分析与并行化研究

作　者: 王涛
导　师: 姚远
学　校: 解放军信息工程大学
专　业: 计算机软件与理论
关键词: 图形处理器 GPU通用计算程序分析与并行化统一计算设备架构开销模型
分类号: TP332
类　型: 硕士论文
年　份: 2010年
下　载: 282次
引　用: 2次
阅　读: 论文下载

内容摘要

高性能计算机是一个国家经济和科技实力的综合体现,也是促进经济、科技发展,社会进步和国防安全的重要工具,已成为世界各国竞相争夺的战略制高点。在人们追求高性价比的并行计算机系统的同时,在许多专用领域的专用计算部件也发挥着其强大的并行计算能力。图形处理器(GPU,Graphics Processing Unit)就是一种用于通用计算的专用加速部件。随着微电子技术的发展,图形处理器,无论是在集成度还是在数据处理能力上都已远远超过通用处理器,特别是在可编程能力、并行处理能力和应用范围方面得到不断提升和扩展,成为当前计算机系统中具备高性能处理能力的部件。目前,国内外针基于GPU的并行化研究,一般都是在原有串行程序的基础上,由熟悉GPU硬件结构的计算机专业人员进行程序改写。但由于串行程序并行化后带来的各种开销,使得并行化后的执行效率可能不及串行程序的执行效率。因此,如何合理地对串行程序进行分析,评估串行程序并行化后在GPU上的执行效率变得尤为重要。本文针对如何评估串行程序并行化后在GPU上的执行效率展开研究,主要研究内容如下:一、研究支持CUDA架构的GPU多线程硬件体系结构以及编程模型。在分析目前高性能计算和GPU通用计算的现状的基础上,详细阐述了GPU在通用计算中的优势,对图形处理器的硬件结构以及编程模型进行深入研究,为开销模型建立提供理论基础。二、为实现循环体工作量的精确计算,本文在深入研究传统的数据依赖关系分析方法的基础上,针对SUIF无法准确计算循环体上下界不固定时的迭代次数的情况,提出了一种改进的方法。三、为了预测串行程序并行化后在GPU上的执行效率,提出了一种基于CUDA架构的GPU并行开销模型,该模型综合考虑了程序并行化的各种开销(设备启动开销、数据传输开销以及GPU执行开销)。通过该模型可以预测出串行程序用GPU加速时的时间开销,将其与串行执行的开销进行对比,从而判断是否用于GPU加速,进而指导串行程序的并行化。

全文目录

表目录  6-7
图目录  7-9
摘要  9-10
ABSTRACT  10-11
第一章绪论  11-19
  1.1 高性能计算现状  11-12
  1.2 图形处理器通用计算现状研究  12-16
  1.3 课题来源  16-17
  1.4 本文主要研究工作  17
  1.5 论文结构  17-19
第二章 GPU 并行计算架构研究  19-29
  2.1 引言  19-20
  2.2 GPU 硬件架构  20-24
    2.2.1 流处理器阵列  21-22
    2.2.2 存储器系统  22-24
  2.3 CUDA 架构  24-28
    2.3.1 CUDA 编程模型  25-26
    2.3.2 CUDA 执行模型  26-28
    2.3.3 NVCC 编译框架  28
  2.4 本章小结  28-29
第三章基于程序静态分析的循环工作量评估算法  29-39
  3.1 引言  29
  3.2 并行性分析  29-34
    3.2.1 数据依赖关系分析  30-33
    3.2.2 依赖关系分析的测试算法  33-34
  3.3 循环体工作量估算  34-38
    3.3.1 循环迭代次数计算  34-37
    3.3.2 循环体指令数计算  37-38
  3.4 本章小结  38-39
第四章基于CUDA 架构的GPU 并行开销模型设计  39-53
  4.1 引言  39
  4.2 开销模型提出  39-42
  4.3 开销模型建立  42-52
    4.3.1 设备启动开销估算  43
    4.3.2 数据传输开销估算  43-44
    4.3.3 GPU 计算开销估算  44-52
  4.4 本章小结  52-53
第五章实验与分析  53-61
  5.1 实验环境  53
  5.2 测试与分析  53-60
    5.2.1 测试一：矩阵乘  53-57
    5.2.2 测试二：FDK 算法  57-60
  5.3 本章小结  60-61
结束语  61-62
参考文献  62-66
作者简历攻读硕士学位期间完成的主要工作  66-67
致谢  67

基于GPU的程序分析与并行化研究

内容摘要

全文目录

相似论文