学位论文 > 优秀研究生学位论文题录展示
基于GPU的程序分析与并行化研究
作 者: 王涛
导 师: 姚远
学 校: 解放军信息工程大学
专 业: 计算机软件与理论
关键词: 图形处理器 GPU通用计算 程序分析与并行化 统一计算设备架构 开销模型
分类号: TP332
类 型: 硕士论文
年 份: 2010年
下 载: 282次
引 用: 2次
阅 读: 论文下载
内容摘要
高性能计算机是一个国家经济和科技实力的综合体现,也是促进经济、科技发展,社会进步和国防安全的重要工具,已成为世界各国竞相争夺的战略制高点。在人们追求高性价比的并行计算机系统的同时,在许多专用领域的专用计算部件也发挥着其强大的并行计算能力。图形处理器(GPU,Graphics Processing Unit)就是一种用于通用计算的专用加速部件。随着微电子技术的发展,图形处理器,无论是在集成度还是在数据处理能力上都已远远超过通用处理器,特别是在可编程能力、并行处理能力和应用范围方面得到不断提升和扩展,成为当前计算机系统中具备高性能处理能力的部件。目前,国内外针基于GPU的并行化研究,一般都是在原有串行程序的基础上,由熟悉GPU硬件结构的计算机专业人员进行程序改写。但由于串行程序并行化后带来的各种开销,使得并行化后的执行效率可能不及串行程序的执行效率。因此,如何合理地对串行程序进行分析,评估串行程序并行化后在GPU上的执行效率变得尤为重要。本文针对如何评估串行程序并行化后在GPU上的执行效率展开研究,主要研究内容如下:一、研究支持CUDA架构的GPU多线程硬件体系结构以及编程模型。在分析目前高性能计算和GPU通用计算的现状的基础上,详细阐述了GPU在通用计算中的优势,对图形处理器的硬件结构以及编程模型进行深入研究,为开销模型建立提供理论基础。二、为实现循环体工作量的精确计算,本文在深入研究传统的数据依赖关系分析方法的基础上,针对SUIF无法准确计算循环体上下界不固定时的迭代次数的情况,提出了一种改进的方法。三、为了预测串行程序并行化后在GPU上的执行效率,提出了一种基于CUDA架构的GPU并行开销模型,该模型综合考虑了程序并行化的各种开销(设备启动开销、数据传输开销以及GPU执行开销)。通过该模型可以预测出串行程序用GPU加速时的时间开销,将其与串行执行的开销进行对比,从而判断是否用于GPU加速,进而指导串行程序的并行化。
|
全文目录
表目录 6-7 图目录 7-9 摘要 9-10 ABSTRACT 10-11 第一章 绪论 11-19 1.1 高性能计算现状 11-12 1.2 图形处理器通用计算现状研究 12-16 1.3 课题来源 16-17 1.4 本文主要研究工作 17 1.5 论文结构 17-19 第二章 GPU 并行计算架构研究 19-29 2.1 引言 19-20 2.2 GPU 硬件架构 20-24 2.2.1 流处理器阵列 21-22 2.2.2 存储器系统 22-24 2.3 CUDA 架构 24-28 2.3.1 CUDA 编程模型 25-26 2.3.2 CUDA 执行模型 26-28 2.3.3 NVCC 编译框架 28 2.4 本章小结 28-29 第三章 基于程序静态分析的循环工作量评估算法 29-39 3.1 引言 29 3.2 并行性分析 29-34 3.2.1 数据依赖关系分析 30-33 3.2.2 依赖关系分析的测试算法 33-34 3.3 循环体工作量估算 34-38 3.3.1 循环迭代次数计算 34-37 3.3.2 循环体指令数计算 37-38 3.4 本章小结 38-39 第四章 基于CUDA 架构的GPU 并行开销模型设计 39-53 4.1 引言 39 4.2 开销模型提出 39-42 4.3 开销模型建立 42-52 4.3.1 设备启动开销估算 43 4.3.2 数据传输开销估算 43-44 4.3.3 GPU 计算开销估算 44-52 4.4 本章小结 52-53 第五章 实验与分析 53-61 5.1 实验环境 53 5.2 测试与分析 53-60 5.2.1 测试一:矩阵乘 53-57 5.2.2 测试二:FDK 算法 57-60 5.3 本章小结 60-61 结束语 61-62 参考文献 62-66 作者简历攻读硕士学位期间完成的主要工作 66-67 致谢 67
|
相似论文
- 基于多核计算平台的视频压缩算法研究,TN919.81
- 基于CUDA架构的H.264并行计算研究,TN919.81
- Web图像搜索中基于GPU的图像分割技术术究,TP391.41
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 流体场景的屏幕空间实时绘制研究,TP391.41
- 基于GPU的H.264到AVS视频转码并行设计,TN919.81
- H.264并行编码算法设计及其在GPU上的实现,TP391.41
- 单张图像去雾研究,TP391.41
- 基于高性能计算的脑电信号分析,R318.0
- 基于GPU的密码算法实现技术研究,TP393.08
- GPU通用计算与基于SIFT特征的图像匹配并行算法研究,TP391.41
- 基于粒子模拟问题的GPU高性能计算系统,TP338
- 基于FPGA的3D图形处理器IP核的设计与实现,TP391.41
- 基于GPU的医学图像三维重建算法及其应用,TP391.41
- 基于GPU的高速正则表达式匹配技术研究,TP393.08
- 基于地理空间信息网格的全球空间数据管理与渲染的关键技术研究,TP391.41
- 基于GPU的椭圆曲线相关算法并行化效率分析,TN918.1
- 基于GPU的时域有限差分方法及应用于LED性能优化的研究,TN312.8
- 三维锥束CT图像重建加速技术研究,TP391.41
- DTS在放疗摆位中的应用研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|