学位论文 > 优秀研究生学位论文题录展示

GPU并行技术在矩阵运算及正则模式分析中的应用

作　者: 刘丽
导　师: 李洪林
学　校: 华东理工大学
专　业: 计算机应用技术
关键词: 图形处理器科学计算并行处理矩阵求逆正则模式分析
分类号: TP391.41
类　型: 硕士论文
年　份: 2012年
下　载: 138次
引　用: 0次
阅　读: 论文下载

内容摘要

图形处理器(GPU)是一种针对图形处理的专用处理器。近几年来,GPU的单精度峰值性能已经从每秒十亿次浮点运算(Gflops)增长到每秒万亿次浮点运算(Tflops)。随着其可编程性的不断发展,GPU开始越来越多地被应用到科学计算的加速研究中。GPU不但具有强大的并行计算能力,还具有低功耗、低成本的特点,是当今主流高性能计算系统的重要组成部分。如何将GPU的并行计算技术应用到更多的科学计算程序中成为了当今高性能计算领域研究的热点之一。本文利用GPU的可编程性和强大的多线程并行计算能力,作了以下研究工作：一、矩阵求逆是一种非常重要的矩阵运算,但是在CPU串行模式中计算大规模矩阵求逆过程是非常耗时的。本文根据GPU的硬件结构特点,在NVIDIA公司提供的CUDA(计算统一设备架构)平台上将矩阵求逆计算过程完全移植到GPU中,获得了300多倍的加速比,且单精度峰值性能达到了230 Gflops,从而满足了矩阵求逆在一些科学计算应用中对计算速度的要求。根据程序的执行结果,我们分析了GPU的单精度和双精度的浮点运算性能,同时分析了数据传输时间对GPU并行计算性能的影响,总结出适合GPU并行处理的算法特征,为GPU应用到更为复杂的分子模拟领域打下基础。二、正则模式分析(NMA)是预测蛋白质构象变化的有效方法,也是分子模拟中求解自由能采样最为耗时的部分。针对此方法中矩阵对角化部分计算量过大而导致计算时间过长的问题,本文利用GPU的并行处理技术对全原子NMA计算过程中的最耗时部分进行加速。结果表明GPU加速全原子NMA能够有效地降低矩阵对角化的运行时间,取得了20余倍的加速比,且单精度浮点运算峰值达到了180 Gflops,同时我们研究了单／双精度的改变对GPU计算性能和计算精确度的影响。

全文目录

摘要  5-6
Abstract  6-9
第1章绪论  9-26
  1.1 高性能计算  9-16
    1.1.1 国内外发展现状  9-11
    1.1.2 高性能计算机的体系结构  11-14
    1.1.3 PVM并行程序设计  14-15
    1.1.4 MPI并行程序设计  15-16
  1.2 高性能计算的新突破  16-23
    1.2.1 GPU的发展史  16-18
    1.2.2 GPU的两大主流架构  18-19
    1.2.3 GPU的编程模型  19-23
  1.3 传统并行编程方法和GPU编程的比较  23-24
  1.4 研究的内容和意义  24-25
  1.5 本文主要内容与安排  25-26
第2章基于GPU的矩阵求逆性能测试和分析  26-36
  2.1 GPU在科学计算中的应用  26-28
  2.2 矩阵求逆在多核CPU上并行实现方法  28-30
  2.3 矩阵求逆在GPU上的实现方法  30-32
  2.4 结果与讨论  32-35
    2.4.1 测试指标  32-33
    2.4.2 CPU和GPU性能测试与对比  33-35
  2.5 本章总结  35-36
第3章 GPU加速计算正则模式分析  36-55
  3.1 背景介绍  36-40
    3.1.1 计算机辅助药物设计和分子动力学  36-37
    3.1.2 正则模式分析的现状  37-38
    3.1.3 正则模式分析的原理  38-40
  3.2 实现方法  40-44
    3.2.1 确定加速模块  40-41
    3.2.2 移植过程  41-44
  3.3 结果和讨论  44-54
    3.3.1 优化方法  44-47
    3.3.2 性能和加速比  47-51
    3.3.3 精确度分析  51-52
    3.3.4 全原子NMA和ENM计算结果对比  52-54
  3.4 本章小结  54-55
第4章结束语  55-57
  4.1 总结  55
  4.2 展望  55-57
参考文献  57-65
致谢  65-66
附录1 攻读学位期间发表的论文  66-67
附录2 攻读学位期间发表的会议论文  67

GPU并行技术在矩阵运算及正则模式分析中的应用

内容摘要

全文目录

相似论文