学位论文 > 优秀研究生学位论文题录展示

GPU并行技术在矩阵运算及正则模式分析中的应用

作 者: 刘丽
导 师: 李洪林
学 校: 华东理工大学
专 业: 计算机应用技术
关键词: 图形处理器 科学计算 并行处理 矩阵求逆 正则模式分析
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 138次
引 用: 0次
阅 读: 论文下载
 

内容摘要


图形处理器(GPU)是一种针对图形处理的专用处理器。近几年来,GPU的单精度峰值性能已经从每秒十亿次浮点运算(Gflops)增长到每秒万亿次浮点运算(Tflops)。随着其可编程性的不断发展,GPU开始越来越多地被应用到科学计算的加速研究中。GPU不但具有强大的并行计算能力,还具有低功耗、低成本的特点,是当今主流高性能计算系统的重要组成部分。如何将GPU的并行计算技术应用到更多的科学计算程序中成为了当今高性能计算领域研究的热点之一。本文利用GPU的可编程性和强大的多线程并行计算能力,作了以下研究工作:一、矩阵求逆是一种非常重要的矩阵运算,但是在CPU串行模式中计算大规模矩阵求逆过程是非常耗时的。本文根据GPU的硬件结构特点,在NVIDIA公司提供的CUDA(计算统一设备架构)平台上将矩阵求逆计算过程完全移植到GPU中,获得了300多倍的加速比,且单精度峰值性能达到了230 Gflops,从而满足了矩阵求逆在一些科学计算应用中对计算速度的要求。根据程序的执行结果,我们分析了GPU的单精度和双精度的浮点运算性能,同时分析了数据传输时间对GPU并行计算性能的影响,总结出适合GPU并行处理的算法特征,为GPU应用到更为复杂的分子模拟领域打下基础。二、正则模式分析(NMA)是预测蛋白质构象变化的有效方法,也是分子模拟中求解自由能采样最为耗时的部分。针对此方法中矩阵对角化部分计算量过大而导致计算时间过长的问题,本文利用GPU的并行处理技术对全原子NMA计算过程中的最耗时部分进行加速。结果表明GPU加速全原子NMA能够有效地降低矩阵对角化的运行时间,取得了20余倍的加速比,且单精度浮点运算峰值达到了180 Gflops,同时我们研究了单/双精度的改变对GPU计算性能和计算精确度的影响。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-26
  1.1 高性能计算  9-16
    1.1.1 国内外发展现状  9-11
    1.1.2 高性能计算机的体系结构  11-14
    1.1.3 PVM并行程序设计  14-15
    1.1.4 MPI并行程序设计  15-16
  1.2 高性能计算的新突破  16-23
    1.2.1 GPU的发展史  16-18
    1.2.2 GPU的两大主流架构  18-19
    1.2.3 GPU的编程模型  19-23
  1.3 传统并行编程方法和GPU编程的比较  23-24
  1.4 研究的内容和意义  24-25
  1.5 本文主要内容与安排  25-26
第2章 基于GPU的矩阵求逆性能测试和分析  26-36
  2.1 GPU在科学计算中的应用  26-28
  2.2 矩阵求逆在多核CPU上并行实现方法  28-30
  2.3 矩阵求逆在GPU上的实现方法  30-32
  2.4 结果与讨论  32-35
    2.4.1 测试指标  32-33
    2.4.2 CPU和GPU性能测试与对比  33-35
  2.5 本章总结  35-36
第3章 GPU加速计算正则模式分析  36-55
  3.1 背景介绍  36-40
    3.1.1 计算机辅助药物设计和分子动力学  36-37
    3.1.2 正则模式分析的现状  37-38
    3.1.3 正则模式分析的原理  38-40
  3.2 实现方法  40-44
    3.2.1 确定加速模块  40-41
    3.2.2 移植过程  41-44
  3.3 结果和讨论  44-54
    3.3.1 优化方法  44-47
    3.3.2 性能和加速比  47-51
    3.3.3 精确度分析  51-52
    3.3.4 全原子NMA和ENM计算结果对比  52-54
  3.4 本章小结  54-55
第4章 结束语  55-57
  4.1 总结  55
  4.2 展望  55-57
参考文献  57-65
致谢  65-66
附录1 攻读学位期间发表的论文  66-67
附录2 攻读学位期间发表的会议论文  67

相似论文

  1. 形态学联想记忆抗噪声的研究,TN911.4
  2. 基于GPU加速FDTD计算速度的研究与仿真,TN011
  3. 基于球面渲染环境的海洋数据多维动态可视化关键技术研究,TP391.41
  4. 科学计算中的标量场可视化技术,TP391.41
  5. 环境一号卫星影像高性能镶嵌技术研究,TP751
  6. 基于多核计算平台的视频压缩算法研究,TN919.81
  7. 基于GPU的计算机断层成像技术研究,TP391.41
  8. 多DSP并行航迹规划系统接口驱动程序设计与实现,TP368.12
  9. 实时海洋浮游生物目标智能识别系统设计,TP391.41
  10. 基于高性能计算的脑电信号分析,R318.0
  11. 基于物理特征的二维流场的并行拓扑结构分析,TP391.41
  12. 矩阵运算的硬件加速技术研究,TP303
  13. 基于FPGA的矩阵运算固化实现技术研究,TN791
  14. 基于多处理器的数字电路系统设计和实现,TN79
  15. 弹体在线检测多路信号并行处理系统研究,TN911.72
  16. 缺陷数据条件下小电流接地系统输电线路故障测距的研究,TM862
  17. 基于Erlang的并发火灾现场人员逃生模拟的研究与实现,TP391.9
  18. 基于多软核并行处理的数字图像处理算法的研究,TP391.41
  19. 基于ADSP-TS201S的实时ISAR成像技术研究与实现,TN958
  20. 基于SpanSpace划分的海量数据等值面提取算法关键技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com