学位论文 > 优秀研究生学位论文题录展示
YHFT-DX片内二级Cache控制器的优化设计
作 者: 张维栋
导 师: 陈吉华
学 校: 国防科学技术大学
专 业: 软件工程
关键词: 存储系统 时序 优化 预取 低功耗 仿真
分类号: TP332
类 型: 硕士论文
年 份: 2009年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响DSP的性能。存储器层次结构有效的降低了CPU访存开销,“Cache+RAM”层次结构普遍应用在DSP处理器存储系统中,片内二级存储器(L2)是CPU和外设交换数据的中枢,存储器访存时间开销中L2处理数据的时间开销占有很大比例。L2是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储器具有重要意义。YHFT-DX是我们自主研发的一款高频高性能DSP,采用0.13umCMOS工艺,设计主频600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置Cache容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用0.13umCMOS工艺、主频为350MHz的芯片进行优化设计。在深入分析原设计的基础上,本文对二级Cache控制器进行了设计优化,实现主频600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有:一、针对二级Cache缺失流水线处理单个缺失请求的不足,设计实现了二级Cache预取结构——Stream Buffer,命中预取缓存的缺失请求可以提前2拍得到数据,在YHFT-DX一级Cache中连续发送读缺失的概率大约为0.14%,同时使得L2原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对Cache系统性能有极大的提升,这一改进使L2处理L1缺失的效率提高了6%以上。二、为了把实现高频带来的功耗增大的危害降到最低,在二级Cache控制器中设计Tag行预取结构——Filter,但是Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了Tag路预测结构。在体系结构级单条路径命中Filter或者Tag路预测准确时,L2的Tag体就处于休眠状态,所以L2的功耗要比同时读取四路Tag降低5%。三、对原设计进行关键路径分析,发现二级Cache是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为9到512位译码器建立时序模型。片内二级Cache经过时序优化设计后,达到了600MHz的设计目标。四、为了充分的验证二级Cache控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用CCS调试了针对于MP4视屏解码程序——Xvid,生成激励作为Benchmark。并且介绍了RTL级逻辑仿真的流程和准确定位设计缺陷的方法。五、提出了压缩L2行大小增加相对存储容量、数据体纵向划分减小功耗优化L2数据体的先进方法,并且评估了其设计实现的可行性。
|
全文目录
摘要 9-10 ABSTRACT 10-11 第一章 绪论 11-19 1.1 DSP 处理器概述 11-13 1.1.1 DSP 处理器的特点 11-12 1.1.2 DSP 处理器的产生和发展 12-13 1.2 DSP 处理器片内存储结构概述 13-16 1.2.1 DSP 片内存储器的层次结构 13-14 1.2.2 DSP 片内Cache 技术的重要性和发展趋势 14-16 1.3 相关研究 16-17 1.4 课题来源,目标及研究意义 17-18 1.5 本文所做的工作 18 1.6 论文组织结构 18-19 第二章 YHFT-DX 片内存储结构及优化策略 19-35 2.1 YHFT-DX 的总体结构 19-20 2.2 YHFT-DX 的片内存储子系统 20-24 2.2.1 片内两级Cache 结构 21-24 2.3 增加数据体容量和降低功耗的方法 24-26 2.3.1 L2 行压缩结构 24-25 2.3.2 分体控制和纵向划分数据体 25-26 2.4 优化CACHE 性能的先进方法 26-29 2.5 YHFT-DX 片内二级CACHE 控制器的性能优化 29-34 2.5.1 基于时序的优化 29-30 2.5.2 基于体系结构的优化 30-34 2.6 本章小结 34-35 第三章 二级CACHE 预取结构的设计实现 35-59 3.1 L2 CACHE 行预取结构的设计实现 36-43 3.1.1 L2 Cache 行预取结构的提出 36-38 3.1.2 Stream Buffer 的体系结构 38-40 3.1.3 Stream Buffer 预取的条件 40-43 3.2 数据通路冲突处理机制 43-46 3.3 维护STREAM BUFFER 数据一致性 46-49 3.3.1 Stream Buffer 的替换策略 47-48 3.3.2 L1D 写缺失与回写维护Stream Buffer 的数据一致性 48-49 3.4 L2 TAG 行预取结构的设计实现 49-53 3.4.1 Tag 行预取结构 49-51 3.4.2 预测Tag 路结构 51-53 3.5 性能优化及实验结果分析 53-58 3.6 本章小结 58-59 第四章 YHFT-DX 的时序优化设计 59-74 4.1 综合优化的策略和方法 59-61 4.2 二级 CACHE 缺失流水线 61-66 4.2.1 接口协议的优化 62-64 4.2.2 平衡流水栈之间的任务 64-66 4.3 一种带置位的SRAM 体系结构 66-68 4.3.1 9 到512 位RTL 级控制译码逻辑 66-67 4.3.2 建立带置位端口的SRAM 时序模型 67-68 4.4 合理规划逻辑 68-70 4.4.1 关键信号提前处理 68-69 4.4.2 层次结构合理划分 69-70 4.5 性能优化及高频实现 70-72 4.6 本章小结 72-74 第五章 模拟验证 74-80 5.1 测试程序MPEG-4 简介 75 5.2 测试程序的软模拟 75-77 5.2.1 移植程序运行平台 76 5.2.2 CCS 软件模拟 76-77 5.3 RTL 级逻辑仿真 77-79 5.3.1 逻辑仿真流程简述 77-78 5.3.2 准确定位设计错误 78-79 5.4 本章小结 79-80 第六章 结束语 80-83 6.1 工作总结 80-81 6.2 工作展望 81-83 致谢 83-84 参考文献 84-87 攻读硕士期间发表的论文 87
|
相似论文
- 超声波钎焊填缝及钎缝优化工艺研究,TG454
- 曲拉精制干酪素褐变因素及工艺优化研究,TS252.5
- 液力减速器制动性能及用于飞机拦阻的仿真研究,TH137.331
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 常温低温组合密封结构的有限元分析与优化设计,TH136
- 基于陀螺和星敏感器的卫星姿态确定研究,V448.2
- 涡轮S2流面正问题气动优化设计研究,V235.11
- 空间交会对接控制方法的研究,V526
- 船用舵机电液伺服单元单神经元PID控制,U666.152
- 碾压混凝土拱坝温度应力仿真分析与分缝设计研究,TV642.2
- 基于蚁群算法的电梯群优化控制研究,TU857
- 中心回燃式燃烧室燃烧特性研究,TK223.21
- 基于精细积分法的电力系统动态电压稳定仿真研究,TM712
- 开关磁阻发电机供电系统仿真分析,TM31
- 电动车用复合结构永磁同步电机系统的仿真研究,TM341
- 内置式高效永磁同步电机的设计研究,TM341
- 内点法在大型电力系统无功优化中的应用研究,TM714.3
- 轴向磁通感应子式高温超导电机的基础研究,TM37
- HID灯整流效应的研究,TM923.32
- AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com
|