学位论文 > 优秀研究生学位论文题录展示

嵌入式异构多核处理器设计与实现关键技术研究

作 者: 岳虹
导 师: 王志英;戴葵
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 异构多核处理器 定制处理器 多媒体处理 子字并行 DCT/IDCT变换 指令集定制 VLSI设计 嵌入式处理器
分类号: TP368.1
类 型: 博士论文
年 份: 2006年
下 载: 1192次
引 用: 14次
阅 读: 论文下载
 

内容摘要


嵌入式应用的发展要求嵌入式微处理器具有高性能、低功耗、结构可扩展、成本低和设计周期短的特征。嵌入式微处理器体系结构及设计方法因此而面临着极大的挑战。在当前集成电路工艺技术条件下,基于面向特定应用的定制处理器设计技术,开展嵌入式异构多核处理器设计与关键技术研究,是该领域的一个重要研究方向,其深入研究具有重要的理论和现实意义。本文在嵌入式异构多核处理器体系结构研究中,结合面向特定应用定制处理器的设计技术,提出了一种以定制处理器核为基础的嵌入式异构多核处理器体系结构,以期在实时性能、设计灵活性以及成本和功耗之间获取最佳的设计折衷。文中以多媒体应用为例,还重点研究了该嵌入式异构多核处理器体系结构设计与实现的核心关键技术,主要包括设计开发环境的构建、应用程序的特征分析、指令集的定制以及定制功能单元的设计等。并在上述研究工作的基础上,具体设计实现了一款面向多媒体应用的高性能嵌入式异构多核处理器芯片,验证了本文的相关研究工作。本文所取得的研究成果主要有:1.提出了一种以定制处理器核为基础的可扩展嵌入式异构多核处理器体系结构。该嵌入式异构多核处理器体系结构融合了高性能通用嵌入式处理器核和多个可面向特定应用进行定制的定制处理器核,基于传输触发体系结构的定制处理器核具有很好的可扩展特点,以及规整性和模块化特点,其硬件可以层次化自动设计实现。2.基于本文所提出的嵌入式异构多核处理器体系结构,提出了其设计实现过程中的体系结构可重定向模拟技术、指令集定制算法及硬件自动生成技术,并在此基础上建立了相应的设计开发环境,有效缩短了设计周期,对相应的嵌入式异构多核处理器的设计、实现、测试和验证提供了有力的支撑。本文使用此设计开发环境,对多媒体应用程序特征及负载进行了量化分析,得到对面向多媒体应用的嵌入式异构多核处理器设计具有指导意义的统计分析结论。3.提出并设计实现了一种基于并行加法器阵列的分散式DCT/IDCT定制功能单元体系结构。该体系结构采用了动态伸缩技术和数据分块技术,将乘法操作转变为查表操作和加法操作,再结合简单的移位操作,完成最终结果的计算。因此只需要很少数量的低位宽加法器、移位器及小规模ROM存储器,既能完成DCT/IDCT变换,并仍能保证计算结果具有很高精度。而且其结构规整,便于硬件高效实现。4.针对多媒体应用计算特点和特殊计算需求,提出并定制了子字并行指令及初等函数计算指令,设计实现了对这些定制指令进行支持的子字并行ALU,多模式子字并行乘法器以及基于CORDIC算法的初等函数计算单元。这些定制功能单元使面向多媒体应用的嵌入式异构多核处理器的实际应用性能得到了大幅度提高,用较小的芯片面积开销获取了较高的应用程序执行性能。5.在上述研究工作的基础上,设计实现了一款面向多媒体应用的嵌入式异构双核处理器EHMP-01芯片。系统研究了该处理器的设计与实现关键技术,包括微体系结构设计、存储系统设计、外围接口设计、逻辑设计和VLSI实现,以及芯片的测试和验证等。该处理器在0.18um工艺下流片,芯片总面积为4.8*4.8mm2,工作主频可以达到300MHz。在300MHz工作主频下,动态功耗仅为670mW。实际运行表明该芯片工作稳定可靠。EHMP-01嵌入式异构双核处理器芯片的成功流片,对本文提出的以定制处理器核为基础的嵌入式异构多核处理器体系结构、设计方法以及一系列关键技术进行了有效的验证。

全文目录


摘要  13-15
ABSTRACT  15-17
第一章 绪论  17-35
  1.1 研究背景  17-21
    1.1.1 微处理器的发展趋势  17-18
    1.1.2 应用需求对高性能嵌入式微处理器体系结构的挑战  18-20
    1.1.3 设计需求对高性能嵌入式微处理器设计方法的挑战  20-21
  1.2 相关研究  21-30
    1.2.1 典型异构多核处理器体系结构  21-26
    1.2.2 异构多核处理器研究现状  26-28
    1.2.3 面向特定应用定制处理器设计方法  28-30
  1.3 研究内容  30-31
  1.4 主要工作  31-33
  1.5 论文结构  33-35
第二章 面向特定应用的嵌入式异构多核处理器体系结构  35-51
  2.1 总体结构  35-39
    2.1.1 CC 体系结构  36-37
    2.1.2 可扩展的DCC 体系结构  37-39
  2.2 DC 体系结构  39-46
    2.2.1 体系结构框架  39-41
    2.2.2 指令集格式  41-42
    2.2.3 流水线机制  42-43
    2.2.4 功能单元及其控制机制  43-44
    2.2.5 寄存器文件及其控制机制  44-45
    2.2.6 Socket 和互连总线  45-46
  2.3 DC 自动生成机制  46-47
  2.4 多核通信机制  47-48
  2.5 本章小结  48-51
第三章 嵌入式异构多核处理器设计开发环境  51-71
  3.1 软硬件自动化设计开发环境  51-52
  3.2 体系结构描述文件  52-53
  3.3 可重定向编译器  53-54
    3.3.1 编译器前端  53-54
    3.3.2 编译器后端  54
  3.4 可重定向周期精确软件模拟器  54-59
    3.4.1 总体结构  55-56
    3.4.2 处理器模型的建立  56-57
    3.4.3 应用程序的预解释  57
    3.4.4 并发操作的模拟  57-58
    3.4.5 定制指令的加入  58
    3.4.6 模拟流程  58-59
  3.5 指令集定制方法  59-63
    3.5.1 问题描述  59-60
    3.5.2 多层次指令集定制算法  60-62
    3.5.3 算法性能分析  62-63
  3.6 DC 自动化生成工具  63-66
    3.6.1 自动化设计流程  63-64
    3.6.2 Map Genenrator 的设计  64-65
    3.6.3 Mach Generator 的设计  65-66
  3.7 软硬件协同验证与评测体系  66-69
    3.7.1 评测体系的建立  66-67
    3.7.2 单核的独立验证与评测  67-68
    3.7.3 多核的协同验证与评测  68-69
  3.8 本章小结  69-71
第四章 多媒体应用程序特性与负载分析  71-87
  4.1 基准测试程序集  71-72
  4.2 测试环境和测试方法  72-75
  4.3 程序特性与工作负载分析  75-83
    4.3.1 操作类型及比例  75-78
    4.3.2 整数数据宽度  78-79
    4.3.3 Cache 需求分析  79-81
    4.3.4 程序指令并行度分析  81-83
  4.4 分析结果对体系结构设计的影响  83-85
  4.5 本章小结  85-87
第五章 一种改进的DCT/IDCT 算法及功能单元体系结构  87-105
  5.1 DCT/IDCT 硬件实现方法概述  87-88
  5.2 DCT/IDCT 硬件实现算法  88-92
  5.3 DCT/IDCT 功能单元设计关键技术  92-95
    5.3.1 浮点程序到定点功能单元的映射  92-93
    5.3.2 动态伸缩技术  93-95
    5.3.3 误差控制机制  95
  5.4 DCT/IDCT 功能单元体系结构  95-98
    5.4.1 总体结构  95-97
    5.4.2 数据分块判决机制  97-98
    5.4.3 转置存储器  98
  5.5 实验结果与分析  98-104
    5.5.1 DCT/IDCT 变换精度分析  99-102
    5.5.2 DCT/IDCT 功能单元的性能与面积分析  102-104
  5.6 本章小结  104-105
第六章 子字并行技术及功能单元体系结构  105-121
  6.1 引言  105
  6.2 子字并行指令  105-108
    6.2.1 子字并行指令类型  105-106
    6.2.2 子字并行指令特性  106-108
    6.2.3 子字并行指令需要的硬件支持  108
  6.3 具有子字并行功能的ALU 体系结构  108-110
    6.3.1 ALU 体系结构  108-109
    6.3.2 ALU 设计中的优化技术  109-110
  6.4 子字并行加法器体系结构  110-112
  6.5 多模式可配置子字并行乘法器体系结构  112-117
    6.5.1 子字并行乘法器设计目标  112-113
    6.5.2 16 位子字并行乘法器体系结构  113-115
    6.5.3 32 位混合子字并行乘法器体系结构  115-117
    6.5.4 乘累加运算的实现  117
  6.6 实验结果与分析  117-119
    6.6.1 程序性能分析  117-118
    6.6.2 硬件实现结果与分析  118-119
  6.7 本章小结  119-121
第七章 基于CORDIC 算法的初等函数功能单元体系结构  121-131
  7.1 CORDIC 算法原理  121-123
  7.2 基于CORDIC 算法的初等函数快速统一实现  123-126
    7.2.1 迭代的实现方式  123-124
    7.2.2 迭代次数和迭代时间的减小  124
    7.2.3 扩大可收敛输入值范围  124-125
    7.2.4 其他设计考虑  125-126
  7.3 初等函数计算功能单元体系结构  126-129
    7.3.1 初等函数指令  126-127
    7.3.2 总体结构  127-128
    7.3.3 前处理模块  128
    7.3.4 CORDIC 计算核心  128
    7.3.5 后处理模块  128-129
  7.4 实验结果与分析  129-130
    7.4.1 性能分析  129
    7.4.2 硬件实现结果与分析  129-130
  7.5 本章小结  130-131
第八章 EHMP-01 处理器VLSI 实现及性能评测  131-147
  8.1 EHMP-01 总体结构  131-132
  8.2 LEON3 体系结构  132-134
    8.2.1 体系结构  132-133
    8.2.2 指令集结构  133-134
  8.3 Miracle 处理器核体系结构  134-142
    8.3.1 指令集结构  134-136
    8.3.2 数据通路  136-137
    8.3.3 功能单元  137-139
    8.3.4 寄存器文件  139-140
    8.3.5 混合存储子系统  140-142
  8.4 VLSI 实现结果  142-143
    8.4.1 前端流程  142
    8.4.2 后端流程  142-143
    8.4.3 测试和验证  143
  8.5 性能评测  143-145
  8.6 本章小结  145-147
结束语  147-151
致谢  151-153
参考文献  153-165
作者在学期间取得的学术成果  165-166

相似论文

  1. 基于宏单元异步乘法器的研究与设计,TP332.22
  2. 基于嵌入式系统安全的信息流监控机制的研究与实现,TP309
  3. 基于S3C2440的智能评分系统设计,TP368.1
  4. 多功能智能化牵引床系统设计,TH789
  5. 面向空间目标轨道预测的定制处理器及其编译器的关键技术研究,V556
  6. 基于ARM9的航电综合控制单元主处理模块的设计和实现,V243
  7. 基于宏单元异步加法器的研究与设计,TP332.2
  8. 基于MPC852和VxWorks的嵌入式系统设计,TP368.12
  9. 面向图像处理的异构多核仿真系统研究,TP391.41
  10. 基于FPGA的片内全数字锁相环系统在SOPC上的实现,TN791
  11. 电子血压仪专用处理器设计及其FPGA实现,TH776
  12. 基于TMS320DM6467的多功能多媒体处理平台的硬件设计与实现,TP391.41
  13. 基于TMS320DM6467的多功能多媒体处理平台的软件设计与实现,TP391.41
  14. 嵌入式处理器中低功耗的BTB研究与设计,TP332
  15. 嵌入式网络实验系统的研究与设计,TP368.12
  16. 小面积RSA硬件加密引擎的VLSI设计,TN918.2
  17. 基于Linux嵌入式操作系统的图形化界面的研究和实现,TP391.41
  18. CADAL中国文学编年史系统的设计与实现,I209-05
  19. 异构多核处理器的任务调度分配问题及算法研究,TP332
  20. 变电站直流电源远程监控通信子系统设计与实现,TM764
  21. 目标跟踪系统中图像预处理和消像旋处理的FPGA设计,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 微型计算机 > 各种微型计算机 > 微处理机
© 2012 www.xueweilunwen.com