学位论文 > 优秀研究生学位论文题录展示
嵌入式可重构DSP体系结构研究
作 者: 段然
导 师: 樊晓桠
学 校: 西北工业大学
专 业: 计算机应用技术
关键词: 可重构计算 DSP处理器 配置 映射 加速比
分类号: TP332
类 型: 博士论文
年 份: 2005年
下 载: 1282次
引 用: 6次
阅 读: 论文下载
内容摘要
计算结构与应用算法的匹配性越好,其性能和计算效率也就越高,这就要求处理器能够根据应用的需要而重新构造系统结构。可重构计算兼有软件的灵活性和ASIC的优越性能,是处理器系统结构一个新的发展方向。而可重构技术和DSP处理器的结合也使得单DSP处理器性能有望得到很大提升。 本文以国家自然科学基金“可重构计算中控制配置研究”(编号60273088),国防“十五”预研课题(编号41308010307)和国防基础研究课题(编号k1800060504)为背景,对高性能可重构DSP处理器进行了深入研究。在完成了“控制增强型通用DSP处理器—龙腾D1”IP软核的基础上,系统研究了“龙腾DR”可重构DSP处理器模型和微系统结构,完成了仿真模型设计,仿真结果表明龙腾DR能够在多个DSP算法和应用领域中,提高单个DSP处理器的性能。 论文中主要工作和创新点如下: 1、在国防“十五”预研课题资助下,作为主要完成人之一,完成了具有自主知识产权的控制增强型通用DSP处理器软核—龙腾D1的设计工作。龙腾D1处理器软核以FPGA的方式通过了验证,并在第三方的MP3音频系统中获得应用。龙腾D1处理器软核映射到TSMC 0.25μm CMOS工艺下,主频超过150MHz,性能达到150M MAC,集成度为32万晶体管。 2、根据DSP应用的控制数据流图特点和可重构结构的适应性,提出了一种可重构DSP处理器模型——龙腾DR。根据数据流图所需地址产生流和数据计算流的不同,龙腾DR的地址产生单元和数据通路都可进行重构,提高了结构的适应性和性能。 3、根据龙腾DR处理器模型,提出了该模型的一种微体系结构,采用控制模式和重构模式间切换,显著减少了通信开销;与主/协处理器结构的REMARC相比,在4个DSP内核算法运行中,性能提高14.9%~48.4%。 4、基于粗粒度可重构结构所需配置信息少,重构开销小的特点,提出了将结构配置信息与计算数据混合放置的存储方案。四个算法内核计算中,在性能降低不到1%的代价下,免除了独立配置存储器和配置总线开销,大大节省了片上存储器和连线资源。 5、提出了一种自动映射算法Stretch&Shrink,该算法将多个DSP应用映射到龙腾DR上,功能单元利用率和存储器带宽利用率分别可达78.75%和80%。 6、采用国际常用内核算法FIR、FFT、矩阵乘、二维卷积程序,对本文提出的可重构龙腾DR处理器模型进行了仿真评价。测得龙腾DR相对于单DSP处理器的性能加速比为8.38~15.45。评价结果表明,龙腾DR能够高效地提高
|
全文目录
摘要 3-5 ABSTRACT 5-7 目录 7-10 图索引 10-13 表索引 13-14 第一章 绪论 14-30 1.1 论文选题来源及背景 14 1.2 嵌入式系统 14-17 1.2.1 嵌入式系统特点与嵌入式处理器分类 15-17 1.3 DSP处理器应用领域与DSP应用特点 17-20 1.3.1 DSP处理器应用领域 17-18 1.3.2 DSP应用的特点 18-20 1.4 可重构计算 20-24 1.4.1 可重构计算概念 21 1.4.2 可重构计算常用术语 21-24 1.4.2.1 基本术语 22 1.4.2.2 耦合方式 22-24 1.5 嵌入式可重构DSP处理器 24-28 1.5.1 DSP应用与可重构计算 24-25 1.5.2 高性能嵌入式DSP处理器结构特点 25-26 1.5.3 嵌入式可重构DSP处理器 26-28 1.6 论文主要工作和创新点 28-29 1.7 论文的结构 29-30 第二章 国内外研究与发展 30-50 2.1 DSP处理器结构特点与发展 30-38 2.1.1 DSP处理器结构特点 30-32 2.1.2 DSP处理器与通用处理器 32-34 2.1.3 DSP处理器结构演进与现状 34-38 2.2 可重构计算的发展与现状 38-49 2.2.1 可重构计算的出现 39-40 2.2.2 国外研究发展与现状 40-49 2.3 国内研究现状 49-50 第三章 龙腾D1处理器内核设计 50-78 3.1 龙腾D1体系结构方案 50-52 3.2 龙腾D1指令集分析 52-56 3.2.1 多功能指令 53-54 3.2.2 龙腾D1处理器指令码 54-56 3.3 龙腾D1控制通路设计 56-62 3.3.1 内核流水线设计 56-58 3.3.2 程序序列器(PSQ) 58-60 3.3.3 数据地址发生器DAG 60-62 3.4 龙腾D1数据通路设计 62-71 3.4.1 内部总线结构 63-64 3.4.2 算术逻辑单元(ALU) 64-66 3.4.3 乘累加器(MAC) 66-69 3.4.3.1 功能介绍 66-68 3.4.3.2 累加器设计 68-69 3.4.4 桶型移位器(Shifter) 69-71 3.5 存储器结构 71-74 3.6 龙腾D1处理器低功耗设计 74-76 3.7 龙腾D1实现与验证 76-78 第四章 可重构DSP-龙腾DR研究 78-106 4.1 龙腾DR处理器模型 78-93 4.1.1 控制数据流图CDFG (Control Data Flow Graph) 78-80 4.1.2 可重构DSP模型——龙腾DR 80-84 4.1.3 数据通路重构粒度 84-86 4.1.4 可重构数据通路拓扑 86-89 4.1.5 与传统可重构结构的区别 89-93 4.2 龙腾DR微体系结构 93-106 4.2.1 龙腾DR工作模式 93-96 4.2.2 可重构处理单元RPU结构 96-98 4.2.3 地址产生单元AGU (Address Generation Unit) 98-101 4.2.4 指令集扩展 101-104 4.2.5 映射实例 104-106 第五章 龙腾DR重构机制与映射策略 106-131 5.1 配置/数据资源复用 106-118 5.1.1 龙腾DR的动态重构 106-108 5.1.2 配置/数据总线复用 108-111 5.1.2.1 配置总线方案 108-109 5.1.2.2 配置存储器组织 109-110 5.1.2.3 配置/数据总线复用 110-111 5.1.3 配置/数据的混合存放 111-118 5.1.3.1 存储器连接方式 112 5.1.3.2 存储器的组织 112-114 5.1.3.3 配置与数据混合存放 114-118 5.2 STRETCH&SHRINK映射策略研究 118-131 5.2.1 细粒度可重构结构映射 118-119 5.2.2 粗粒度可重构结构映射 119-121 5.2.3 循环流水 121-123 5.2.4 映射策略 123-131 第六章 龙腾DR仿真评价 131-151 6.1 龙腾DR处理器评价方法 131-134 6.2 龙腾DR处理器评价模型 134-135 6.3 加速比评价方法 135-137 6.4 内核算法执行性能分析 137-146 6.5 应用程序执行性能分析 146-151 6.5.1 无人机机载图像处理系统应用 146-151 第七章 结束语 151-153 7.1 本文所作的工作 151-152 7.2 关于进一步的研究 152-153 致谢 153-154 博士期间发表的论文和研究工作 154-155 参考文献 155-166
|
相似论文
- 基于非规则LDPC码的BICM系统优化设计,TN911.2
- 海量多数据库集成系统的查询处理研究,TP311.13
- AUTOSAR系统建模方法的研究与实现,TP311.52
- 大规模计算环境下网络模拟任务划分研究,TP393.01
- 基于无源性的控制及其在磁悬浮系统中的应用,TP13
- 基于距离映射码的安全指纹认证研究,TP391.4
- UML模型到XMI的映射方法研究,TP311.5
- 栽培方式及株行距配置对超级稻宁粳3号产量形成和群体均衡性的影响,S511.22
- 中国区域基础教育资源配置的均等化研究,G521
- 上海地区竹种调查及其在园林中的配置与应用,S795
- 我国民防局(办)的基本职能定位研究,E256
- 高校后勤实体的归属性及其人力资源配置研究,G647.4
- 板球系统的控制算法研究,TP13
- 陕西高校后勤资源配置研究,G647.4
- 山东协和职业技术学院后勤人力资源优化配置研究,G717
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于供需平衡的济宁市水资源优化配置研究,TV213.4
- 我国资本市场的配置效率分析,F832.51
- 基于粒子群算法的区域水资源优化配置研究,TV213.4
- 基于粒子系统的火焰和烟花实时模拟技术研究,TP391.9
- 基于炼油厂CSTR生产的循环调度与优化问题研究,F273
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|