学位论文 > 优秀研究生学位论文题录展示

YHFT-DX片内二级Cache控制器的优化设计

作 者: 张维栋
导 师: 陈吉华
学 校: 国防科学技术大学
专 业: 软件工程
关键词: 存储系统 时序 优化 预取 低功耗 仿真
分类号: TP332
类 型: 硕士论文
年 份: 2009年
下 载: 37次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响DSP的性能。存储器层次结构有效的降低了CPU访存开销,“Cache+RAM”层次结构普遍应用在DSP处理器存储系统中,片内二级存储器(L2)是CPU和外设交换数据的中枢,存储器访存时间开销中L2处理数据的时间开销占有很大比例。L2是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储器具有重要意义。YHFT-DX是我们自主研发的一款高频高性能DSP,采用0.13umCMOS工艺,设计主频600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置Cache容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用0.13umCMOS工艺、主频为350MHz的芯片进行优化设计。在深入分析原设计的基础上,本文对二级Cache控制器进行了设计优化,实现主频600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有:一、针对二级Cache缺失流水线处理单个缺失请求的不足,设计实现了二级Cache预取结构——Stream Buffer,命中预取缓存的缺失请求可以提前2拍得到数据,在YHFT-DX一级Cache中连续发送读缺失的概率大约为0.14%,同时使得L2原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对Cache系统性能有极大的提升,这一改进使L2处理L1缺失的效率提高了6%以上。二、为了把实现高频带来的功耗增大的危害降到最低,在二级Cache控制器中设计Tag行预取结构——Filter,但是Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了Tag路预测结构。在体系结构级单条路径命中Filter或者Tag路预测准确时,L2的Tag体就处于休眠状态,所以L2的功耗要比同时读取四路Tag降低5%。三、对原设计进行关键路径分析,发现二级Cache是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为9到512位译码器建立时序模型。片内二级Cache经过时序优化设计后,达到了600MHz的设计目标。四、为了充分的验证二级Cache控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用CCS调试了针对于MP4视屏解码程序——Xvid,生成激励作为Benchmark。并且介绍了RTL级逻辑仿真的流程和准确定位设计缺陷的方法。五、提出了压缩L2行大小增加相对存储容量、数据体纵向划分减小功耗优化L2数据体的先进方法,并且评估了其设计实现的可行性。

全文目录


摘要  9-10
ABSTRACT  10-11
第一章 绪论  11-19
  1.1 DSP 处理器概述  11-13
    1.1.1 DSP 处理器的特点  11-12
    1.1.2 DSP 处理器的产生和发展  12-13
  1.2 DSP 处理器片内存储结构概述  13-16
    1.2.1 DSP 片内存储器的层次结构  13-14
    1.2.2 DSP 片内Cache 技术的重要性和发展趋势  14-16
  1.3 相关研究  16-17
  1.4 课题来源,目标及研究意义  17-18
  1.5 本文所做的工作  18
  1.6 论文组织结构  18-19
第二章 YHFT-DX 片内存储结构及优化策略  19-35
  2.1 YHFT-DX 的总体结构  19-20
  2.2 YHFT-DX 的片内存储子系统  20-24
    2.2.1 片内两级Cache 结构  21-24
  2.3 增加数据体容量和降低功耗的方法  24-26
    2.3.1 L2 行压缩结构  24-25
    2.3.2 分体控制和纵向划分数据体  25-26
  2.4 优化CACHE 性能的先进方法  26-29
  2.5 YHFT-DX 片内二级CACHE 控制器的性能优化  29-34
    2.5.1 基于时序的优化  29-30
    2.5.2 基于体系结构的优化  30-34
  2.6 本章小结  34-35
第三章 二级CACHE 预取结构的设计实现  35-59
  3.1 L2 CACHE 行预取结构的设计实现  36-43
    3.1.1 L2 Cache 行预取结构的提出  36-38
    3.1.2 Stream Buffer 的体系结构  38-40
    3.1.3 Stream Buffer 预取的条件  40-43
  3.2 数据通路冲突处理机制  43-46
  3.3 维护STREAM BUFFER 数据一致性  46-49
    3.3.1 Stream Buffer 的替换策略  47-48
    3.3.2 L1D 写缺失与回写维护Stream Buffer 的数据一致性  48-49
  3.4 L2 TAG 行预取结构的设计实现  49-53
    3.4.1 Tag 行预取结构  49-51
    3.4.2 预测Tag 路结构  51-53
  3.5 性能优化及实验结果分析  53-58
  3.6 本章小结  58-59
第四章 YHFT-DX 的时序优化设计  59-74
  4.1 综合优化的策略和方法  59-61
  4.2 二级 CACHE 缺失流水线  61-66
    4.2.1 接口协议的优化  62-64
    4.2.2 平衡流水栈之间的任务  64-66
  4.3 一种带置位的SRAM 体系结构  66-68
    4.3.1 9 到512 位RTL 级控制译码逻辑  66-67
    4.3.2 建立带置位端口的SRAM 时序模型  67-68
  4.4 合理规划逻辑  68-70
    4.4.1 关键信号提前处理  68-69
    4.4.2 层次结构合理划分  69-70
  4.5 性能优化及高频实现  70-72
  4.6 本章小结  72-74
第五章 模拟验证  74-80
  5.1 测试程序MPEG-4 简介  75
  5.2 测试程序的软模拟  75-77
    5.2.1 移植程序运行平台  76
    5.2.2 CCS 软件模拟  76-77
  5.3 RTL 级逻辑仿真  77-79
    5.3.1 逻辑仿真流程简述  77-78
    5.3.2 准确定位设计错误  78-79
  5.4 本章小结  79-80
第六章 结束语  80-83
  6.1 工作总结  80-81
  6.2 工作展望  81-83
致谢  83-84
参考文献  84-87
攻读硕士期间发表的论文  87

相似论文

  1. 超声波钎焊填缝及钎缝优化工艺研究,TG454
  2. 曲拉精制干酪素褐变因素及工艺优化研究,TS252.5
  3. 液力减速器制动性能及用于飞机拦阻的仿真研究,TH137.331
  4. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  5. 常温低温组合密封结构的有限元分析与优化设计,TH136
  6. 基于陀螺和星敏感器的卫星姿态确定研究,V448.2
  7. 涡轮S2流面正问题气动优化设计研究,V235.11
  8. 空间交会对接控制方法的研究,V526
  9. 船用舵机电液伺服单元单神经元PID控制,U666.152
  10. 碾压混凝土拱坝温度应力仿真分析与分缝设计研究,TV642.2
  11. 基于蚁群算法的电梯群优化控制研究,TU857
  12. 中心回燃式燃烧室燃烧特性研究,TK223.21
  13. 基于精细积分法的电力系统动态电压稳定仿真研究,TM712
  14. 开关磁阻发电机供电系统仿真分析,TM31
  15. 电动车用复合结构永磁同步电机系统的仿真研究,TM341
  16. 内置式高效永磁同步电机的设计研究,TM341
  17. 内点法在大型电力系统无功优化中的应用研究,TM714.3
  18. 轴向磁通感应子式高温超导电机的基础研究,TM37
  19. HID灯整流效应的研究,TM923.32
  20. AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
  21. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 运算器和控制器(CPU)
© 2012 www.xueweilunwen.com