学位论文 > 优秀研究生学位论文题录展示

CUDA加速CV图像分割和外部CT图像重建算法研究

作 者: 倪风岳
导 师: 曾理
学 校: 重庆大学
专 业: 计算数学
关键词: 工业CT 计算机统一设备架构 并行计算 图像重建 图像分割
分类号: TP391.41
类 型: 硕士论文
年 份: 2011年
下 载: 55次
引 用: 0次
阅 读: 论文下载
 

内容摘要


计算机断层成像技术(Computed Tomography,简称CT)在现代工业和医学中起着非常重要的作用。外部CT重建是在特定要求下的工业和医学应用中提出的一种特殊的CT成像重建技术。由于外部CT投影数据不完全,为了能够获得高质量的重建图像,实际工程中不得不使用计算量庞大的代数迭代重建算法。并行计算对于现代科技发展起着非常重要的作用,比如数值天气预报,大型工程数值模拟等等。在各类计算机断层成像中,由于许多应用对成像时间有着较高的要求,为了利用计算机断层成像固有的并行计算性质和适应这种速度需求,使得并行计算和计算机断层成像成为一个交叉学科热点。另一方面,图像分割是图像测量和识别的基础,在医学、工业、探测、航天等领域同样有着广泛的应用。一些具有良好的图像分割效果的各种图像分割算法如C-V分割模型,一般计算量较很大,并且有些应用对时间有着较为苛刻的要求,这同样为并行计算和该领域的结合提供了契机。外部CT重建中全变差最小-子区域平均-凸集映射(TVM-SA-POCS)数值算法具有数值计算稳定、重建图像质量好的优点,但是其最大的瓶颈是计算量巨大,重建周期长。其重建时间长的缺点导致它在很多情况下不能够达到工业CT重建实际应用的要求,这成了制约外部CT重建TVM-SA-POCS算法被应用到实际产品中去的最大障碍。为了能够使得外部CT重建TVM-SA-POCS算法的优势得到发挥,克服其重建时间长的不足,本文研究了利用具有高性能计算功能的CUDA(Computer Unified Device Architecture:计算机统一设备架构)图形卡GPU对该算法进行加速,以提高其重建速度。国内外很多学者对图像重建加速进行过研究,提出了很多的加速方案,基本思路分为两种:一种是软方案,改进重建算法,减少计算量来实现加速;另一种是硬方案,以具有高度并行计算能力的硬件设备为基础,编程时把算法与硬件设备特性结合,以此来提高重建速度。在硬方案加速中,常被使用的硬件设备有专用集成电路ASIC、FPGA门阵列、图形处理器GPU、PC集群几种常用方法。在这些硬方案加速设备中,专用集成电路ASIC和PC集群的费用非常昂贵,小型公司和研究机构难以负担。FPGA门阵列和图形处理器GPU的造价低廉,具有较高的性价比。FPGA与图形处理器GPU虽然成本都比较低,但是GPU相对FPGA具有更高的并行计算能力和数据存储能力,这就使得GPU在加速CT重建、图像处理领域具有更大的优势,研究人员在这方面也就倾注了更多的研究精力。GPU加速CT重建的主要优点有,图形卡处理器GPU更新换代快,其通用并行计算能力几乎以3倍的摩尔定律增长;图形卡处理器成本低,其并行计算实用性好;由于CUDA(Computer Unified Device Architecture:计算机统一设备架构)技术标准的推出,学习曲线低,并行计算程序的通用性和向下兼容性更好,所以现在利用CUDA图形卡处理器的通用计算功能对CT图像重建和图像处理等有很多应用,CUDA加速工业CT图像重建已经成为一种重要的加速方法。为了能够充分利用具有通用计算功能的图形处理器的并行计算能力和数据传输带宽,本文认真分析了外部CT重建TVM-SA-POCS算法的特点和C-V图像分割算法的特点,并且在此基础上研究了图像重建和图像分割算法与CUDA设备特性相结合,充分提高计算密度,提高数据传输率的共享内存使用方法和归约树求和方法。该方法主要是采用共享内存技术实现在投影与反投影过程中的高速数据传输问题;使用归约树求和方法提高重建和图像分割中的向量内积计算效率,提高设备计算密度;使用共享内存块方法实现TVM计算,提高数据的传输率与计算密度,在此基础上提高重建和图像分割速度。使用GPU与使用CPU的重建时间和图像分割时间的实验结果表明,外部CT重建加速可以达到20倍左右,图像分割加速可以达到30~40倍。实际计算的实验结果表明,在重建和分割中,CUDA的并行计算时间均远远小于单机的计算时间,效果良好。

全文目录


中文摘要  3-5
英文摘要  5-9
1 绪论  9-15
  1.1 外部CT 重建与DR 图像分割加速的重要意义  9-10
  1.2 国内外研究现状  10-13
  1.3 本文研究的目的  13-14
  1.4 本文研究的内容  14-15
2 CUDA 编程技术基础  15-26
  2.1 引言  15
  2.2 GPU 基于CT 重建的硬件基础  15-17
  2.3 CUDA:可伸缩并行编程模型  17-18
  2.4 GPU:高度并行化、多线程、多核处理器  18-22
    2.4.1 线程层次结构  18-19
    2.4.2 存储器层次结构  19-21
    2.4.3 主机和设备  21-22
  2.5 具有芯片共享存储器的一组SIMT 多处理器  22-24
  2.6 并行程序要求  24-25
  2.7 本章总结  25-26
3 CT 重建基础  26-40
  3.1 引言  26-27
  3.2 CT 成像系统扫描方式的发展  27-30
  3.3 CT 成像的数学原理  30
  3.4 截断投影数据CT 图像重建  30-31
  3.5 三类投影数据截断问题  31-33
  3.6 CT 系统的离散化数学模型  33-36
  3.7 迭代重建算法  36-39
    3.7.1 ART 型迭算法  36-37
    3.7.2 TV 正则化方法  37-38
    3.7.3 TV 最小化方法的迭代求解过程  38-39
  3.8 本章小结  39-40
4 曲线(面)演化理论  40-48
  4.1 引言  40
  4.2 曲线演化原理  40-42
  4.3 水平集方法  42
  4.4 水平集的理论基础  42-44
  4.5 C-V 模型原理  44
  4.6 C-V 模型  44-46
  4.7 C-V 模型的数值实现  46-47
  4.8 本章小结  47-48
5 CUDA 加速 CV 图像分割模型  48-53
  5.1 引言  48
  5.2 C-V 方法的并行实现  48-49
  5.3 C-V 算法并行化与GPU 结合应用  49-51
  5.4 实验结果及分析  51-52
  5.5 本章小结  52-53
6 CUDA 加速外部 CT 重建  53-61
  6.1 引言  53
  6.2 圆形轨迹CT 的二维外部问题和SA-TVM-POCS 算法  53-55
  6.3 CUDA 加速SA-TVM-POCS 算法  55-58
  6.4 实验结果与分析  58-60
  6.5 本章小结  60-61
7 总结与展望  61-62
  7.1 本文工作总结  61
  7.2 后续研究工作展望  61-62
致谢  62-63
参考文献  63-67
附录  67

相似论文

  1. 森林防火系统中图像识别算法的研究,TP391.41
  2. 基于学习的低阶视觉问题研究,TP391.41
  3. 数字图像处理在集装箱检测中的应用研究,TP274.4
  4. 个性化人工膝关节设计及其生物力学特性研究,R318.1
  5. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  6. 红外图像目标识别及跟踪技术研究,TP391.41
  7. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  8. 卧式工业CT-DR图像检查分系统设计,TP391.41
  9. 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
  10. 基于知识的脊柱MRI影像分割算法研究,TP391.41
  11. 基于OpenCV的人脸检测方法研究,TP391.41
  12. 计算机辅助髋关节置换手术系统研究与开发,TP391.41
  13. 一种高性能可扩展公钥密码协处理器的研究与设计,TN918.1
  14. 基于多核计算平台的视频压缩算法研究,TN919.81
  15. 基于单目夜视图像的深度估计,TP391.41
  16. 基于中介真值程度度量的图像分割方法研究,TP391.41
  17. 基于图像处理的棉花成熟度判定技术的研究,TP391.41
  18. 基于空间邻域词袋模型的图像标注技术,TP391.41
  19. 基于GPU的有限元方法研究,O241.82
  20. 射频波注入磁化等离子体的数值模拟,TL612
  21. 基于数字图像处理技术的路面裂缝检测算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com