学位论文 > 优秀研究生学位论文题录展示
合成孔径雷达数据处理应用的细粒度并行算法与结构
作 者: 周杰
导 师: 窦勇
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 合成孔径雷达 细粒度并行 FPGA 快速傅立叶变换 矩阵分解 空时自适应信号处理 CORDIC
分类号: TN957.52
类 型: 博士论文
年 份: 2010年
下 载: 56次
引 用: 1次
阅 读: 论文下载
内容摘要
合成孔径雷达正朝着高分辨率、大幅宽、多波段、多极化和多工作模式方向发展,随之而来的是数据量和计算量的急剧膨胀。同时,合成孔径雷达应用系统主要运行在飞机、卫星、导弹等特殊环境中,小型化、轻型化、低功耗也是其发展的必然趋势。因此,寻找存储容量大、处理能力强,满足机载、星载、弹载等特殊环境的处理平台,并研究基于该平台的实时处理系统具有重要的理论意义和实际应用价值。本文首先将合成孔径雷达应用分为静态目标成像和运动目标检测成像两类,提取这两类应用中的关键数据处理算法,并分别研究这些关键数据处理的细粒度并行算法与结构。具体的讲,主要进行了如下一些研究:1)鉴于FFT变换算法在合成孔径雷达应用中的基础地位,同时针对系统对不同规模FFT变换的设计与实现需求,本文提出了基于参数化模板FFT细粒度并行算法与结构的设计架构与方法,给出了基于参数化模板设计方法的FFT变换的性能模型和硬件资源使用模型。对该设计架构做进一步扩展就可以作为基于参数化模板的FFT硬件代码自动生成架构,为下一步研究工作奠定了基础。2)针对STAP处理中的求解最小二乘方程组,本文对基于Givens旋转、Householder变换、MGS的三种QR分解和基于列选主元的LU分解等四种矩阵分解算法进行了深入分析。分析结果显示,四种矩阵分解算法具有相同的两层循环结构与数据依赖关系。利用该特点,我们首先提出了统一的矩阵分解细粒度并行算法与结构。然后提出了包含可扩展一维线性阵列的统一矩阵分解协处理器结构,并该结构中的处理单元具有统一的存储通道与连接关系,仅是处理单元内部数据通路有所不同。最后基于Xilinx Virtex5 FPGA (Field Programmable Gate Array)实现了IEEE754标准的单精度浮点格式的统一结构矩阵分解协处理器。性能测试结果表明,相对于运行在Pentium双核CPU上的双线程SSE代码,该协处理器可取得2.3到14.9倍的性能加速。3)研究了合成孔径雷达成像系统的细粒度并行算法与结构。针对合成孔径雷达成像算法对矩阵行列交叉访问和DRAM存储器的访问特点,本文提出了可使系统存储带宽平衡且达到最高的最优窗口访问原理,并基于该原理设计和实现了窗口模式DRAM存储控制器,有效缓解了存储墙问题。该窗口访问原理不仅适用于合成孔径雷达成像类算法(如CS算法、RD算法等),也可以方便的应用在矩阵乘、图像处理等需要矩阵行列交叉访问领域中。结合第二章有关FFT变换的研究成果,分别提出了硬件资源充足和不足条件下的合成孔径雷达成像细粒度并行算法与结构。与相关研究相比,利用本文所提结构实现规模为64*64和256*256合成孔径雷达成像的性能分别是DM系统的2.12倍和2.27倍。由于窗口访问方式适用于大规模矩阵的交叉访问,因此对于大规模SAR成像,本章的基于窗口访问系统的优势将更加明显。4)研究了具有优良杂波和干扰抑制性能的STAP处理的细粒度并行算法与结构。STAP处理的输入数据为一个三维立方体结构,处理过程中需要对该立方体两个或三个维度上的数据进行访问。与合成孔径雷达成像系统类似,本文首先针对不同访问需求分别提出了二维和三维访问模式,以便缓解存储墙问题,解决系统的存储访问瓶颈。在第二章FFT变换和第三章矩阵分解类算法研究基础上,提出了STAP处理的细粒度并行算法与结构,并针对自适应处理的特点提出了体循环结构存储器和二维阵列结构。性能测试结果表明,与运行在Pentium双核CPU上的双线程SSE相比,包含16个处理单元的STAP阵列处理器可取得10.50倍的性能加速。5)为计算合成孔径雷达应用系统中各种超越函数,本文最后提出了混合模式CORDIC算法。该算法通过混合旋转角度方法减少硬件代价,并进行收敛域扩展。基于混合模式CORDIC算法,设计和实现了单精度浮点CORDIC协处理器。利用三段包含大量超越函数的科学计算程序核进行的性能测试结果表明,相对于32位Pentium4处理器,32位混合模式多CORDIC协处理器系统的最大和平均加速比分别为47.6和35.2。
|
全文目录
摘要 12-14 Abstract 14-16 第一章 绪论 16-32 1.1 合成孔径雷达及其应用 16-19 1.1.1 合成孔径雷达及其工作原理 16-17 1.1.2 合成孔径雷达应用与发展趋势 17-19 1.2 合成孔径雷达应用系统处理流程及关键算法 19-24 1.2.1 静态目标成像处理流程 19-20 1.2.2 运动目标检测成像流程 20-22 1.2.3 课题研究的关键算法 22-24 1.3 合成孔径雷达应用系统主要的实现平台 24-26 1.3.1 传统的实现平台 24-25 1.3.2 硬件加速及其主要实现技术 25-26 1.3.3 硬件算法加速器面临的挑战 26 1.4 课题研究平台 26-27 1.5 课题的研究思路与主要工作 27-29 1.5.1 课题的研究思路 27-28 1.5.2 课题研究的主要工作 28-29 1.6 论文组织结构 29-32 第二章 基于参数化模板的FFT细粒度结构设计与实现 32-52 2.1 离散傅立叶变换及其快速算法原理 32-36 2.1.1 一维离散傅里叶变换及其逆变换 32-33 2.1.2 二维离散傅里叶变换及其逆变换 33-35 2.1.3 超长一维傅里叶变换 35 2.1.4 快速傅里叶变换 35-36 2.2 FFT变换相关工作 36-37 2.3 基于参数化模板的FFT评估与设计架构 37-39 2.4 FFT体系结构模板及性能与硬件资源评估模型 39-45 2.4.1 四种参数化的FFT体系结构模板 39-41 2.4.2 参数化体系结构模板的性能评估模型 41-43 2.4.3 参数化体系结构模板的硬件资源评估模型 43-45 2.5 基于参数化模板的FFT硬件代码自动生成 45-47 2.6 试验结果 47-50 2.6.1 基本模块层主要部件的综合结果 47-48 2.6.2 基于各种体系结构模板FFT的综合结果 48-49 2.6.3 各个体系结构FFT加速器的性能测试 49-50 2.7 本章小结 50-52 第三章 统一的矩阵分解细粒度并行算法与结构 52-74 3.1 矩阵分解类算法及其统一的算法架构 52-57 3.1.1 修正的Gram-Schmidt算法 52-53 3.1.2 Householder变换算法 53-54 3.1.3 快速Givens旋转算法 54 3.1.4 LU分解算法 54-56 3.1.5 矩阵分解算法的统一架构 56-57 3.2 矩阵分解类算法实现的相关工作 57-59 3.3 统一的矩阵分解细粒度并行算法 59-62 3.3.1 统一的数据依赖关系 59-60 3.3.2 统一的细粒度并行算法 60-62 3.4 统一的矩阵分解细粒度并行结构及其性能模型 62-65 3.4.1 统一的矩阵分解细粒度并行结构 62-63 3.4.2 实例分析:快速Givens旋转与LU分解处理单元 63-64 3.4.3 细粒度并行结构的性能模型 64-65 3.5 实验结果与性能比较 65-69 3.5.1 不同矩阵分解的FPGA资源使用情况 66-67 3.5.2 性能测试与比较 67-69 3.6 矩阵分解在全空时自适应信号处理中的应用 69-73 3.6.1 全空时自适应信号处理及其细粒度并行算法 69-71 3.6.2 全空时自适应信号处理的细粒度并行结构 71-72 3.6.3 全空时自适应信号处理细粒度并行结构的试验结果 72-73 3.7 本章小结 73-74 第四章 合成孔径雷达成像细粒度并行结构 74-92 4.1 合成孔径雷达成像 74-78 4.1.1 合成孔径雷达成像算法介绍 74-75 4.1.2 DRAM存储器 75-76 4.1.3 合成孔径雷达成像的相关研究工作 76-78 4.2 窗口访问模式 78-83 4.2.1 最优窗口访问原理 78-80 4.2.2 基于窗口访问的存储控制器 80-83 4.3 合成孔径雷达成像系统细粒度并行结构 83-87 4.3.1 硬件资源充足条件下的细粒度并行结构与性能模型 83-85 4.3.2 硬件资源不足条件下的细粒度并行结构与性能模型 85-87 4.4 合成孔径雷达成像系统试验结果 87-90 4.4.1 存储带宽测试 87-89 4.4.2 成像系统综合结果与性能测试 89-90 4.5 本章小结 90-92 第五章 空时自适应信号处理细粒度并行算法与结构 92-112 5.1 空时自适应信号处理算法及其相关研究 92-97 5.1.1 空时自适应信号处理算法介绍 92-93 5.1.2 部分空时自适应信号处理算法 93-95 5.1.3 空时自适应信号处理的相关研究 95-97 5.2 二维与三维存储访问模式 97-102 5.2.1 二维存储访问模式 97-99 5.2.2 三维存储访问模式 99-102 5.3 空时自适应信号处理细粒度并行结构与性能模型 102-107 5.3.1 自适应权值部分结果计算的细粒度并行结构 102-103 5.3.2 空时自适应信号处理细粒度并行结构 103-105 5.3.3 细粒度并行结构的性能模型 105-107 5.4 空时自适应阵列处理器的实验结果 107-110 5.4.1 空时自适应阵列处理器的综合结果 107-108 5.4.2 不同访问方式的带宽测试 108-110 5.4.3 阵列处理器的性能测试与比较 110 5.5 本章小结 110-112 第六章 混合模式CORDIC协处理器 112-128 6.1 CORDIC算法原理与研究现状 112-117 6.1.1 CORDIC基本原理 112-114 6.1.2 统一的CORDIC算法 114-115 6.1.3 CORDIC算法研究现状 115-117 6.2 混合模式CORDIC算法 117-120 6.2.1 收敛域扩展算法 117-119 6.2.2 混合旋转角度CORDIC算法 119-120 6.2.3 精度和数据位宽分析 120 6.3 单精度混合模式CORDIC协处理器实现结构 120-123 6.3.1 收敛域扩展模块 121-122 6.3.2 CORDIC计算模块 122-123 6.3.3 规格化模块 123 6.4 混合模式CORDIC协处理器试验结果 123-126 6.4.1 综合结果 124 6.4.2 正确性与精度测试 124-125 6.4.3 性能比较 125-126 6.5 本章小结 126-128 第七章 结束语 128-130 7.1 论文工作总结 128-129 7.2 下一步工作展望 129-130 致谢 130-132 参考文献 132-144 作者在学期间取得的学术成果 144-148 作者在学期间参加的科研工作 148
|
相似论文
- 基于FPGA的电磁超声检测系统的研究,TH878.2
- 基于FPGA的五相PMSM驱动控制系统的研究,TM341
- LXI任意波形发生器研制,TM935
- 基于FPGA的射频功放数字预失真器设计,TN722.75
- 突发OFDM系统同步与信道估计算法及FPGA实现,TN919.3
- 直扩系统抗多径性能分析及补偿方法研究,TN914.42
- 极化SAR图像超分辨算法的研究,TN957.52
- 海杂波背景下的舰船目标雷达成像算法研究,TN958
- 海杂波建模及其对ISAR成像的影响,TN957.54
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 电视制导系统中视频图像压缩优化设计及实现研究,TN919.81
- 基于FPGA的多用户扩频码捕获研究及硬件仿真,TN914.42
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 基于FPGA的高速数字图像采集与接口设计,TP274.2
- 基于FPGA的电感传感器数据采集系统的研制,TP274.2
- 基于Nios的串行总线分析仪研制,TP274
- 基于FPGA-RocketIO_X的PMC高速数据传输板开发,TP274.2
- PXI高性能数字I/O模块研制,TP274
- LXI计数器研制,TP274
- 基于FPGA的高速实时数据采集系统,TP274.2
中图分类: > 工业技术 > 无线电电子学、电信技术 > 雷达 > 雷达设备、雷达站 > 雷达接收设备 > 数据、图像处理及录取
© 2012 www.xueweilunwen.com
|