学位论文 > 优秀研究生学位论文题录展示
线程级并行的硬件技术研究
作 者: 朱霞
导 师: 高德远
学 校: 西北工业大学
专 业: 计算机应用技术
关键词: 微处理器 线程级并行 多线程处理器 发射逻辑 误预测损失 置信度评估 选择性双路径执行
分类号: TP303
类 型: 博士论文
年 份: 2003年
下 载: 472次
引 用: 9次
阅 读: 论文下载
内容摘要
本文受到国防十五预研课题的资助,研究高性能微处理器系统结构,在国内率先研究并设计了32位嵌入式微处理器ARMP (Aviation microelectronics center RISC MicroProcessor)。该处理器具有自主版权,采用自主设计的流水线结构进行控制,具有优良的实时性和精确中断的特点,在指令集上与PowerPC 603e指令集完全兼容。该处理器目前正在进行后端设计,即将采用0.25μm CMOS工艺流片,整个处理器的晶体管数目为380万,封装形式是QFP240,Die面积为98mm2。 为了对今后的微处理器设计提供技术储备,本文深入了解国内外目前最先进的微处理器系统结构研究工作,明确了该领域研究的发展方向和研究难点。目前微处理器系统结构设计已经进入线程级并行的时代。多份硬件现场共享一组执行单元的多线程处理器能灵活地利用程序中的指令级并行和线程级并行,从而提供更好的性能。2002年2月Intel公布其在Intel(?) XeonTM处理器上使用了超线程技术[MBHH+02],表明XeonTM处理器本质上是两份硬件现场共享一组处理器执行单元的多线程处理器。 在这种背景下,本文研究支持线程级并行的硬件技术,尤其是执行单元为超标量结构的多线程处理器。 首先,在设计的嵌入式微处理ARMP的基础上进行改进,提出了一个超标量处理器模型,用于多线程处理器系统结构的研究与验证。 其次,指令发射逻辑是超标量处理器中的关键路径,也是制约执行单元为超标量结构的多线程处理器主频提高的关键因素。本文提出了两种新的发射逻辑方案,使之更适合多线程处理器。其中,IET(Issue Enable Table)发射使能表方案,能及时得到操作数准备好信息,从而有效减少发射逻辑中进行相联比较的比较器数目,并能减少发射逻辑的功耗;另一种是EDM(Effective Dependence Matrix)高效相关阵列方案,能有效减少发射逻辑的线延时。此外,本文还提出了基于前导1计算的发射队列表项分配方案,该方案能够提高多线程处理器中发射队列表项的利用率。 再次,目前的高性能微处理器都采用转移预测来解决控制相关。在执行单元为超标量结构的多线程处理器中,转移误预测损失会随着指令发射带宽和流水线级数的增加而增加。这使得高效地控制流处理成为微处理器系统结构设计的重要问题之一。本文提出多线程处理器的选择性双路径执行方案(Selective Dual Path Execution)。使用置信度评估方案来判断转移预测结果正确的概率,即转移预测的可信度。选择在多线程处理器中有空闲的硬件现场,并且置信度评估方案判断当前的转移预测为低置信度时,双路径执行转移指令的两个目标路径,从而降低西北工业大学博士学位论文误预测损失。 为了得到适合选择性双路径执行的置信度评估方案,本文对提高处理器性能的转移预测进行深入研究,并根据误预测集群性,提出了新的置信度评估方案一一DCR(Deerease Constant or Reset)方案。DCR方案相对国际上现有方案能有效提高转移误预测被标识为低置信度的概率(由SPEC参数表示),同时能提高标识为低置信度的转移预测最终结果确实错误的概率(由PVN参数表示)。与国际上最新提出的置信度评估MDC方案比较,DCR方案中SPEC值和PVN值的提高分别为151.8%和42.19%。 本文采用DCR置信度评估方案指导选择性双路径执行时的路径创建,接着设计了选择性双路径执行的标一记符,提出了选择性双路径执行的系统结构,并详细分析了选择性双路径执行的实现策略。 本论文在进行各种理论和设计方法分析的同时,还针对采用的设计方法和提出的算法进行了大量的仿真工作,验证了正确性,其结果是令人鼓舞的,也为进一步研究打下了良好的基础。
|
全文目录
目录 8-13 第一章 绪论 13-25 1.1 技术和应用的发展要求新型计算机系统结构 13-14 1.2 新型系统结构的比较 14-19 1.2.1 多标量Multiscalar系统结构 14-16 1.2.2 Trace处理器 16-17 1.2.3 同时多线程 17 1.2.4 单片多处理器 17-18 1.2.5 几种系统结构的比较 18-19 1.3 线程级并行的研究 19-22 1.3.1 学术界对线程级并行的研究 20-22 1.3.2 商用处理器中对线程级并行的支持 22 1.4 论文研究内容 22-23 1.5 创新点概要 23-24 1.6 论文结构 24-25 第二章 系统结构的发展 25-42 2.1 流水线技术 25-29 2.1.1 数据相关 27-28 2.1.2 控制相关 28-29 2.1.3 结构相关 29 2.2 超标量结构 29-32 2.2.1 超标量带来的问题 30 2.2.2 动态调度超标量 30-32 2.3 多线程处理器的定义及优势 32-34 2.3.1 利用线程级并行的必然性 32 2.3.2 多线程处理器的定义 32-33 2.3.3 多线程处理器相对单片多处理器的优势 33-34 2.4 同时多线程的研究 34-39 2.4.1 同时多线程SMT模型 34-35 2.4.2 同时多线程的工作原理 35-36 2.4.3 同时多线程中的取指策略 36 2.4.4 同时多线程的寄存器文件 36-37 2.4.5 同时多线程中同步机制 37-38 2.4.6 同时多线程在商业机器中的应用 38-39 2.5 前瞻性多线程结构 39-40 2.6 本文的研究角度 40-41 2.6.1 多线程处理器的设计空间 40-41 2.6.2 本文的研究角度 41 2.7 小结 41-42 第三章 ARMP处理器设计 42-79 3.1 ARMP系统结构概述 42-45 3.1.1 确定ARMP的指令集系统结构 42-43 3.1.2 ARMP数据类型 43 3.1.3 ARMP指令类型和指令格式 43-44 3.1.4 寄存器模型 44-45 3.2 ARMP流水线级数选择 45-49 3.3 对数据相关和控制相关的处理 49-52 3.3.1 数据相关的解决 49-50 3.3.2 控制相关的解决 50-52 3.4 取指令级设计 52-57 3.4.1 建立正确的取指指针 52-53 3.4.2 与MMU及cache的接口 53-56 3.4.3 指令寄存器IR的设计 56-57 3.5 主控状态机的设计 57-64 3.5.1 简单指令 57-58 3.5.2 复杂指令 58 3.5.3 转移指令 58-59 3.5.4 同步指令 59 3.5.5 浮点指令 59-60 3.5.6 访存指令 60-62 3.5.7 中断 62-64 3.6 译码部件的实现 64-65 3.7 执行级设计概述 65-66 3.8 ALU模块 66-68 3.8.1 ALU模块的实现 66-68 3.9 线性阵列乘法器的实现 68-71 3.10 改进的WALLACE树方法实现乘法运算 71-73 3.11 前导零计算 73-74 3.12 中断处理 74-78 3.12.1 中断识别 74-75 3.12.2 中断服务 75-76 3.12.3 浮点指针追踪 76-77 3.12.4 保存返回地址 77-78 3.13 小结 78-79 第四章 超标量处理器模型 79-91 4.1 超标量处理器模型 79-80 4.2 处理器参数的选择 80-81 4.3 流水线操作 81 4.4 取指 81-82 4.5 转移部件 82-83 4.6 寄存器重命名 83-85 4.6.1 使用寄存器重命名消除伪相关 83-84 4.6.2 寄存器重命名的实现 84-85 4.7 发射队列 85-86 4.8 活动表 86-87 4.9 访存队列 87-88 4.10 中断恢复 88-90 4.10.1 精确中断 88-89 4.10.2 精确中断的实现 89-90 4.11 ARMP与ARMP-V2的比较 90 4.12 小结 90-91 第五章 指令发射的改进设计 91-105 5.1 发射逻辑 91-94 5.2 对发射逻辑的改进 94-103 5.2.1 传统发射逻辑的不足 94-96 5.2.2 发射使能表(IET-Issue Enable Table)方案 96-97 5.2.3 IET方案的优缺点分析 97-99 5.2.4 高效相关阵列EDM(Effective Dependence Matrix)方案 99-102 5.2.5 EDM方案的分析 102-103 5.3 适合多线程处理器的发射队列表项分配 103-104 5.4 小结 104-105 第六章 置信度评估方案 105-133 6.1 转移预测的必要性 105 6.2 转移预测方案 105-113 6.2.1 动态预测方案 106-108 6.2.2 索引方案 108-110 6.2.3 组合预测方案 110-112 6.2.4 更新方案 112-113 6.3 置信度评估 113-119 6.3.1 置信度评估方案 114-115 6.3.2 规约函数的选择 115-116 6.3.3 JRS置信度估计方案 116 6.3.4 置信度评估中使用的评测参数 116-119 6.4 误预测的集群性 119-124 6.4.1 仿真工具及仿真参数 119-120 6.4.2 误预测集群性的仿真策略及仿真结果 120-124 6.5 DCR(DECREASE CONSTANT OR RESET)置信度评估方案 124-126 6.5.1 DCR置信度评估方案的结构 124-125 6.5.2 DCR置信度评估方案的规约函数 125-126 6.5.3 仿真策略 126 6.6 不同置信度评估方案的比较 126-132 6.6.1 与JRS方案的比较 126-128 6.6.2 与MDC方案的比较 128-129 6.6.3 改变阈值对置信度评估的影响 129-131 6.6.4 计数器位宽对置信度评估的影响 131-132 6.7 小结 132-133 第七章 选择性双路径执行 133-148 7.1 转移误预测损失 133-135 7.1.1 转移误预测的影响增加 133-134 7.1.2 减少转移误预测损失 134-135 7.2 多路径执行 135-137 7.2.1 启动多路径执行的时机 135-137 7.3 采用选择性双路径执行的原因 137-138 7.4 选择性双路径执行的机制 138-141 7.4.1 结构变化 139-140 7.4.2 选择性双路径的创建 140 7.4.3 选择置信度评估的评测参数 140-141 7.5 选择性双路径执行系统结构 141-147 7.5.1 选择性双路径执行时需要的标识 141-143 7.5.2 选择性双路径执行时的实现策略 143-147 7.5.3 解决存储器相关的硬件结构 147 7.6 小结 147-148 第八章 结论 148-150 致谢 150-151 博士期间发表的论文和参加的工作 151-153 参考文献 153-165
|
相似论文
- 单片机AVR运用开发,TP368.12
- 基于微处理器的螺旋CT固件远程升级的设计与实现,R318.6
- 基于GPS和GPRS的监控导航系统的设计,TN967.1
- 自适应混合高斯背景建模算法的GPU并行优化研究,TP391.41
- 抗内部存储单元失效的32位微处理器的研究与实现,TP333
- 基于MIPS无线通讯设备驱动实现技术,TP368.1
- 深亚微米工艺下微处理器体系结构级功耗模型相关技术研究,TP332
- 高性能微处理器RTL级和体系结构级低功耗设计关键技术研究,TP332
- 矿井顶板压力位移数据采集系统研究与实现,TP274.2
- 基于MSP430的汽车轮胎压力监测系统,U463.6
- 纸币清分机控制与处理系统的研制,TH693.5
- 基于XC167CI的ZigBee无线环境监测网络系统,TP274
- 软硬协同动态二进制翻译系统设计与实现,TP391.2
- 基于OR1200的嵌入式SoC以太网网关的研究与设计,TP368.11
- ARM反编译中的类型分析技术研究,TP368.1
- 低功耗数据触发微处理器功能单元的设计与实现,TP332
- 微处理器芯片平台测试系统的研究及优化,TN407
- 基于ARM技术的Langmuir探针系统开发,O539
- 基于开关磁阻电机的阀门电动执行机构智能控制器的研究,TM352
- 基于嵌入式及图像识别技术的布氏硬度试验机测控系统设计,TH871.5
- 基于CAN总线的水处理工程数据采集系统设计,TP274.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 总体结构、系统结构
© 2012 www.xueweilunwen.com
|