学位论文 > 优秀研究生学位论文题录展示

GPU并行计算在医学图像处理中的应用研究

作 者: 李英敏
导 师: 褚晶辉
学 校: 天津大学
专 业: 信息与通信工程
关键词: GPU CUDA 医学图像 同质滤波 Canny
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 9次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在现代的临床诊断和医学研究中,医学图像处理与分析技术占有重要地位,主要研究内容包括图像增强技术、图像分割技术、图像配准技术、三维重建等方面。医学图像数据量大,处理算法复杂,CPU(Central Processing Unit)处理速度不能满足实际应用中的需求,因此如何准确而且快速地处理海量图像数据成为亟待解决的技术问题。GPU(Graphics Processing Unit)作为一种高度并行的流处理器,具有更强的浮点计算能力。随着GPU通用计算的普及和CUDA(Compute Unified Device Architecture)的推出,GPU不再局限于传统的图像渲染任务,在通用计算方面也发挥着越来越重要的作用。采用CPU和GPU异构编程方式能发挥GPU高强度的计算能力,提高医学图像处理的执行速度本文在国内外医学图像增强的方法和医学图像分割中边缘检测算法的基础上,对图像增强、图像分割中若干算法进行了并行加速。首先,对耗时的三维医学图像同质滤波算法进行数据并行性分析,优化存储器访问,使用接口文件将实验结果与Matlab实现进行误差比较,在保证数据精确性的情况下实现了三维医学图像滤波的高倍加速。其次,在图像分割算法中,着重实现了Canny算子的并行加速。对Canny算子进行数据并行性分析,针对每一步骤都选择合适的并行优化策略,最大限度地实现了程序总体的加速。最后,使用compute profiler等分析工具进一步对并行程序进行优化,通过分析工具提示的潜在优化方向,合理分配GPU资源,根据不同并行程序选择不同的优化方向,达到GPU资源利用率的最大化。三维医学图像数据同质滤波的优化加速比高达77倍,且精度误差在10-8以内(0.000004%),可忽略不计。分割算法中的Canny算子的并行优化也达到了9倍的加速。GPU加速大大缩短了三维医学图像处理的运行时间,解决了医学图像处理的速度瓶颈问题,可以应用于对运行速度有要求的图像处理中。

全文目录


中文摘要  3-4
ABSTRACT  4-8
第一章 绪论  8-15
  1.1 医学图像处理概述  8-13
    1.1.1 医学图像概述  8-10
    1.1.2 GPU 计算发展概述  10-13
  1.2 国内外研究现状  13-14
  1.3 结构安排  14-15
第二章 并行编程和 CUDA 基础  15-29
  2.1 并行编程语言与模型  15-16
  2.2 NVIDIA GPU 硬件架构  16-22
    2.2.1 G200 体系架构  16-18
    2.2.2 Fermi 体系架构  18-20
    2.2.3 Kepler 架构  20-22
  2.3 CUDA 概述  22-29
    2.3.1 编程模型  22-23
    2.3.2 存储器模型  23-25
    2.3.3 执行模型  25
    2.3.4 CUDA 软件体系  25-27
    2.3.5 分析优化工具  27-29
第三章 医学图像增强算法优化  29-40
  3.1 图像增强算法  29-32
    3.1.1 空域的增强算法  30-31
    3.1.2 频域的增强算法  31-32
  3.2 同质滤波算法优化  32-40
    3.2.1 NLM 算法  32-33
    3.2.2 同质滤波算法  33-34
    3.2.3 并行优化  34-40
第四章 医学图像分割算法优化  40-49
  4.1 图像分割算法  41-43
    4.1.1 基于区域的分割算法  41-42
    4.1.2 基于边界的分割算法  42-43
    4.1.3 图像分割新技术  43
  4.2 Sobel 算子和 Canny 算子  43-44
    4.2.1 Sobel 算子  43-44
    4.2.2 Canny 算子  44
  4.3 并行优化  44-49
    4.3.1 Sobel 算子优化  44-46
    4.3.2 Canny 算子并行优化  46-49
第五章 并行程序的性能优化  49-56
  5.1 并行利用率优化  49-51
    5.1.1 应用层次优化  49-50
    5.1.2 设备层次优化  50
    5.1.3 多处理器层次优化  50-51
  5.2 存储器访问优化  51-53
    5.2.1 主机设备间通信优化  51-52
    5.2.2 全局存储器优化  52
    5.2.3 共享存储器优化  52-53
    5.2.4 纹理和常数存储器  53
  5.3 指令优化  53-54
  5.4 并行程序的资源平衡  54-56
第六章 全文总结  56-57
  6.1 本文贡献  56
  6.2 工作展望  56-57
参考文献  57-59
发表论文和参加科研情况说明  59-60
致谢  60

相似论文

  1. 三维头部数值模型的建立及DBS电场的分析研究,R742.5
  2. 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6
  3. 基于CUDA的图像数字水印技术的研究,TP309.7
  4. CUDA平台下数字图像认证方法的设计与实现,TP391.41
  5. 基于水平集区域分割的医学图像融合算法研究,TP391.41
  6. 基于GPU并行加速的正射影像生成研究,TP391.41
  7. 基于GPU的水下环境的实时模拟,TP391.41
  8. 基于GPU的BLAST程序的并行计算的研究,TP338.6
  9. 直接体绘制相关技术研究,TP391.41
  10. 基于GPU的医学图像体绘制算法的研究与实现,TP391.41
  11. 基于GPU的常见散列算法并行实现及优化,TP391.41
  12. CUDA技术在多节点超短期负荷预测上的应用,TM715
  13. GPU在车辆检测与跟踪系统中的应用研究,TP391.41
  14. 水稻分蘖断层图像重建加速研究,TP391.41
  15. 基于并行计算的立体影像密集匹配算法研究,TP391.41
  16. 快速智能入侵检测技术研究,TP393.08
  17. 基于GPU的有限元方法研究,O241.82
  18. 心血管系统虚拟内窥镜技术研究,TP391.41
  19. 复杂场景下交通灯的检测与识别方法研究,TM923.5
  20. 多媒体SoC芯片中GPU的功能验证平台设计,TN401
  21. 基于能量最小化的腹部CT图像分割与三维可视化,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com