学位论文 > 优秀研究生学位论文题录展示
嵌入式多核处理器设计与实现关键技术研究
作 者: 侯宁
导 师: 高明伦; 张多利
学 校: 合肥工业大学
专 业: 电气工程
关键词: 嵌入式多核处理器 片上网络 虚拟电路 FFT SAR FPGA 多核芯片组 映射算法 多核芯片通讯
分类号: TN957.52
类 型: 博士论文
年 份: 2012年
下 载: 95次
引 用: 0次
阅 读: 论文下载
内容摘要
嵌入式应用已经从早期的工业控制领域扩展到以媒体处理,信息处理为代表的计算密集型应用领域,对嵌入式微处理器的性能提出了更高要求。与此同时,随着VLSI技术进步,单纯依靠提高主频进而提升处理器性能的道路已经走到尽头,设计以多核处理器为代表的先进处理器体系结构已经成为提升处理器性能,满足不断提升的应用需求的主要途径。随着工艺技术的进步,嵌入式多核处理器已经得到较快发展,但仍然面临一系列科学技术问题亟待解决。因此,开展嵌入式多核处理器设计与实现关键技术研究,具有重要的理论和现实意义。合成孔径雷达(Synthetic Aperture Radar, SAR)是一种典型的计算密集型嵌入式应用,并且在军事、经济和环境等领域有重要应用价值。本文以SAR实时成像应用为例,探索面向高性能计算领域的多核架构设计方法,重点从架构设计与实现、应用加速设计以及应用映射等方面开展研究工作。针对高性能嵌入式应用对高计算能力的需求,本文提出了基于“任务簇”的处理器体系结构模型,并根据该模型设计了一种嵌入式多核处理器架构。通过讨论单层结构和层次化结构片上网络的通讯性能与应用的通讯特征间的关系,本文还设计了一种双层混合结构的多核通讯架构,并研究了通讯架构中路由器类型的选择以及路由器的体系结构设计问题。FFT是SAR成像应用中的主要运算任务。为加速FFT运算过程,本文提出了一种高性能的并行FFT处理架构。针对多核芯片组协同工作问题,本文提出了一种面向多核芯片组的任务映射算法,以及一种具有普适性的多核芯片通讯方案。最后,在上述研究成果的基础上,设计了一款SAR实时成像嵌入式多核原型系统,验证了本文的研究工作。本文所取得的研究成果主要有:1.提出一种基于“任务簇”的处理器体系结构模型,并根据该模型设计了一种嵌入式多核处理器架构,其中通讯架构采用双层混合结构。针对高性能嵌入式应用对高计算能力的需求,基于“任务簇”的处理器体系结构模型通过细分计算任务、加速规则计算任务来提高处理器的计算能力。通过讨论单层结构和层次化结构片上网络的通讯性能与应用的通讯特征间的关系,本文设计了一种混合层次化双层结构的多核通讯架构。新通讯架构为嵌入式多核处理器提供了充足的片上通讯带宽,并兼顾了应用通讯特征的多样性。2.仿真分析了电路交换路由器与支持虚拟通道的虫孔交换路由器,在不同通讯特征下的通讯性能:电路交换路由器预先建立端到端的传输链路,链路建立后报文切片顺次连续到达,并且路由器面积较小,在长报文传输(切片数量为几百个)时通讯性能可以接受,但是在短报文传输(切片数量为十几个)时通讯性能较差;虫孔交换路由器不能保证报文切片连续到达且面积稍大,但对于长/短报文传输均表现出优异的通讯性能。上述结论可以用来指导片上网络设计中路由器的选择。3.提出了一种支持虚拟电路的电路交换路由器。针对已有电路交换路由器链路利用率较低的不足,本文研究了一种支持虚拟电路的电路交换路由器。实验表明,新的路由器设计能够有效的降低报文传输延迟并提高饱和注入率。4.采用定常结构的FFT运算流图提出了一种无存储访问冲突的基2×K并行FFT架构。该架构通过并行地址产生算法,使K个基2蝶形运算单元同时读取或写入所需的2K个操作数,达到平均每周期完成K个基2蝶式运算的处理能力。与已有的并行FFT架构相比,地址映射算法易于硬件实现。并行地址产生部件由一个计数器和共4K个二选一多路选择器组成,结构简单,并且对于不同K值,并行地址产生部件结构相同,可以方便的根据FFT运算的速度要求设计不同并行度的FFT处理器,具有很好的可扩展性。在资源消耗方面,不考虑旋转因子,对于N点的FFT,通常采用定常结构的FFT处理器需要2N个存储单元,而本文提出的FFT处理器只需要3N/2个存储单元。5.针对多核芯片组协同工作问题,本文提出了一种面向多核芯片组的任务映射算法,以及一种具有普适性的多核芯片通讯方案。板级互连总线的通讯带宽较小,并且受芯片管脚个数限制,板级的数据链路个数有限,采用面向多核芯片组的任务映射算法可以有效减少芯片间的任务通讯量。同时,针对报文数据在多核芯片组中的传输问题,本文还提出了一种多核芯片通讯方案。该方案具有普适性,不受多核芯片的数量、拓扑结构和路由算法限制,并且易于硬件实现。6.在上述研究成果的基础上,本文设计了一款SAR实时成像多核原型系统。原型系统主要包括4颗Xilinx Virtex-6-550T FPGA芯片以及一些存储、接口和电源管理芯片。4颗FPGA芯片均采用本文提出的嵌入式多核处理器体系架构设计。原型系统流水处理雷达回波数据,工作频率在80MHz时,能够在18秒内得到一幅4096×2048点的256级灰度SAR图像,并且原型系统的输出图像与PC得到的原始图像间的差别可以忽略,成像质量很好。
|
全文目录
摘要 8-10 ABSTRACT 10-12 致谢 12-21 第一章 绪论 21-41 1.1 研究背景 21-30 1.1.1 VLSI技术进步推动微处理器体系结构发展 21-23 1.1.2 应用需求对高性能嵌入式微处理器体系结构的挑战 23-25 1.1.3 关于多核技术发展的若干思考 25-27 1.1.4 SAR成像算法对微处理器性能的需求 27-30 1.1.4.1 SAR简介 27 1.1.4.2 SAR成像算法对微处理器体系结构的需求 27-30 1.2 相关研究 30-38 1.2.1 嵌入式多核处理器研究现状 30-32 1.2.2 多核互连通讯架构研究现状 32-37 1.2.3 合成孔径雷达成像系统分析 37-38 1.3 本文主要工作 38-39 1.4 论文结构 39-41 第二章 嵌入式多核处理器体系架构 41-65 2.1 总体架构 41-43 2.2、多核通讯架构 43-58 2.2.1 单层结构与层次化结构 44-45 2.2.2 通讯性能分析 45-47 2.2.3 通讯性能对比实验 47-55 2.2.3.1 硬件仿真器建模 47-52 2.2.3.2 通讯任务集 52-54 2.2.3.3 仿真实验结果 54-55 2.2.4 嵌入式多核处理器通讯架构 55-58 2.3 任务簇架构 58-61 2.3.1 CU体系架构 58-59 2.3.2 FU体系架构 59 2.3.3 协同工作流程 59-61 2.4 多核同步机制 61-64 2.5 小结 64-65 第三章 片上网络体系结构设计 65-101 3.1 路由器的设计选择 65-69 3.2 支持虚拟电路的包连接电路路由器 69-83 3.2.1 包连接电路路由器 69-70 3.2.2 虚拟电路的工作原理 70-73 3.2.3 路由器微体系结构设计 73-80 3.2.3.1 路由器的外特性 73-75 3.2.3.2 路由器总体结构 75-76 3.2.3.3 虚拟电路控制逻辑 76-77 3.2.3.4 虚拟电路分配逻辑 77-79 3.2.3.5 开关仲裁逻辑 79-80 3.2.3.6 反馈仲裁电路 80 3.2.4 实验结果及分析 80-83 3.3 网络报文定义 83-92 3.4 资源-网络接口设计 92-98 3.4.1 CU-RNI模块 93-96 3.4.2 FU-RNI模块 96-98 3.5 小结 98-101 第四章 无存储访问冲突的基2×K并行FFT架构 101-125 4.1 FFT算法及VLSI实现 101-104 4.1.1 快速算法分类 101 4.1.2 混合基算法 101-102 4.1.3 分裂基算法 102-103 4.1.4 小结 103-104 4.2 FFT处理器硬件架构 104-110 4.2.1 基本架构 104-105 4.2.2 流水线架构 105-106 4.2.3 并行架构与存储访问冲突问题 106-108 4.2.4 并行流水架构 108 4.2.5 小结 108-110 4.3 基2×K并行FFT架构的无存储访问冲突算法 110-118 4.4 基2×K并行FFT架构的硬件实现 118-122 4.4.1 碟算单元无冲突访问模块 118-121 4.4.2 旋转因子访问模块 121-122 4.5 与已有并行FFT架构比较 122-123 4.6 小结 123-125 第五章 SAR实时成像嵌入式多核原型系统 125-155 5.1 SAR实时成像嵌入式多核原型系统实现平台 125-126 5.2 成像处理器设计 126-139 5.2.1 功能单元FU 127-136 5.2.1.1 向量计算引擎 128-134 5.2.1.2 FFT处理器 134-135 5.2.1.3 本地数据存储器 135-136 5.2.2 转置单元 136-138 5.2.3 子系统互连单元 138-139 5.3 并行程序设计 139-147 5.3.1 并行程序设计流程 140-141 5.3.2 成像算法并行处理流程 141-142 5.3.3 面向多核芯片组的任务映射算法 142-147 5.3.3.1 问题提出 142-144 5.3.3.2 算法描述 144-145 5.3.3.3 实验结果 145-147 5.4 处理板设计 147-148 5.5 系统性能测试及成像质量评价 148-152 5.5.1 系统性能测试 148-151 5.5.2 成像质量评价 151-152 5.6 小结 152-155 第六章 总结与展望 155-159 6.1 工作总结 155-157 6.2 工作展望 157-159 参考文献 159-169 作者在学期间取得的学术成果 169-170
|
相似论文
- 基于FPGA的电磁超声检测系统的研究,TH878.2
- 基于FPGA的五相PMSM驱动控制系统的研究,TM341
- LXI任意波形发生器研制,TM935
- 基于FPGA的射频功放数字预失真器设计,TN722.75
- 突发OFDM系统同步与信道估计算法及FPGA实现,TN919.3
- 直扩系统抗多径性能分析及补偿方法研究,TN914.42
- 电视制导系统中视频图像压缩优化设计及实现研究,TN919.81
- 基于FPGA的多用户扩频码捕获研究及硬件仿真,TN914.42
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- AUTOSAR系统建模方法的研究与实现,TP311.52
- 基于FPGA的高速数字图像采集与接口设计,TP274.2
- 基于FPGA的电感传感器数据采集系统的研制,TP274.2
- 基于Nios的串行总线分析仪研制,TP274
- 基于FPGA-RocketIO_X的PMC高速数据传输板开发,TP274.2
- PXI高性能数字I/O模块研制,TP274
- LXI计数器研制,TP274
- 基于FPGA的高速实时数据采集系统,TP274.2
- SAR图像超分辨率重构研究,TN957.52
- 基于Nios Ⅱ的GPS信息接收系统设计,TN967.1
- 温压炸药爆炸温度场存储测试技术研究,TQ560.7
中图分类: > 工业技术 > 无线电电子学、电信技术 > 雷达 > 雷达设备、雷达站 > 雷达接收设备 > 数据、图像处理及录取
© 2012 www.xueweilunwen.com
|