学位论文 > 优秀研究生学位论文题录展示

面向硬件故障的软件容错

作 者: 高珑
导 师: 杨学军
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 面向硬件故障的软件容错 COTS器件 空间计算机 错误流模型 错误流分析 容错能力 错误流关键子图 错误流压缩算法 部分冗余算法 无冗余容错编译 软件实现的双冗余容错系统
分类号: TP311.52
类 型: 博士论文
年 份: 2006年
下 载: 330次
引 用: 0次
阅 读: 论文下载
 

内容摘要


空间计算机是空间信息处理的基础平台,具有重大的战略意义。在空间环境中,硬件瞬时故障给空间计算机带来的可靠性问题非常突出。使用抗辐照器件可以提高空间计算机的可靠性,但是抗辐照器件性能非常低,价格非常高,功耗也很高,不适合用来建造用于科学计算目的的高性能的空间计算机。COTS器件性能很高,价格和功耗都很低,在COTS器件上面通过软件技术容忍硬件瞬时故障,可以提供高可靠、高性能、低成本和低功耗的空间计算机的解决方案。但是软件对于硬件瞬时故障传播的影响如何,软件容忍硬件瞬时故障的能力到底如何,这种能力对于系统有什么样的影响,都还没有模型能够描述。软件冗余在容忍硬件故障的同时,也带来了很大的开销,如何减小这种开销的影响,也是需要解决的问题。本文先建立了计算数据流模型,并在计算数据流模型的基础上建立了错误流模型。通过区分两种不同类型的错误,以及引入的6条错误传播规则和2条错误独立定律,我们计算出了错误流模型中任意数据在任意时刻产生错误的概率。在此基础上,我们根据容错概念的本质含义,概率化的定义了程序的容错能力。并分析了程序的容错能力对软件实现的双冗余容错系统的容错能力和性能的影响。以程序的容错能力为优化目标,我们提出了通过基于错误流分析的等价变换提高程序的容错能力的概念和方法。其中,我们还在错误流分析的基础上,提出了两种容错算法的优化方法,明显增加了性能并降低了功耗。本文的主要创新如下,1.通过引入原子数据和计算关系的概念,建立了计算数据流模型,描述了存储单元之间由于计算而形成的时空联系。通过引入原子数据的错误概率函数和计算关系的错误传播概率函数,在计算数据流模型上建立了错误流模型,概率化的描述了计算关系传播硬件错误的特性,计算出了任意存储单元在任意时刻发生错误的概率。最终建立了错误流分析的理论框架。2.基于错误流分析提出程序容错能力的概念,给出了程序容错能力的计算方法,提出容忍错误是程序内在属性的观点。并以程序的容错能力为优化目标,提出了一种不进行任何显式的冗余,而仅通过基于错误流分析的等价变换就能提高程序容错能力的方法。并且应用错误流分析,描述了构建双冗余容错系统的方法,分析了提高单个软件副本的容错能力会给双冗余容错系统带来的影响。3.提出对于程序容错能力具有关键影响的错误流关键子图的概念,基于错误流分析分别给出了由关键结点和关键路径生成错误流关键子图的方法。并且提出一种仅复制错误流关键子图的部分冗余容错算法,和EDDI算法相比,部分冗余容错算法在损失很小的错误覆盖率的情况下,能够提高IPC性能10%,减少执行时间15%,减小能量消耗10%。4.通过分析EDDI算法由于插入的分支指令而造成的性能和功耗损失,提出了一种通过附加计算减少分支指令数量的错误流压缩算法,和EDDI算法相比,错误流压缩算法在增加很小的错误延迟的情况下,能够提高性能12%,减少执行时间10%,减小能量消耗5%。

全文目录


摘要  10-12
ABSTRACT  12-14
第一章 绪论  14-38
  1.1 研究背景  14-32
    1.1.1 高性能的空间计算机  14-17
    1.1.2 空间应用对空间计算机的制约因素  17-21
    1.1.3 基于COTS器件的空间计算机  21-25
    1.1.4 面向硬件故障的软件容错技术  25-32
  1.2 研究内容  32-36
    1.2.1 程序对硬件错误传播的影响  32-34
    1.2.2 程序的容错能力和性能之间的矛盾  34-35
    1.2.3 单个软件副本的容错能力对系统的影响  35-36
  1.3 研究方法  36
    1.3.1 错误流分析  36
    1.3.2 系统运行时分析  36
  1.4 本文的主要贡献和创新  36-37
  1.5 论文的结构  37-38
第二章 错误流模型  38-68
  2.1 错误流模型  39-46
    2.1.1 计算数据流模型  39-41
    2.1.2 计算数据流图的建立  41-44
    2.1.3 错误流模型和错误流图  44
    2.1.4 URM程序示例  44-46
  2.2 错误流分析  46-57
    2.2.1 错误的分类  46
    2.2.2 错误传播的规则和定律  46-48
    2.2.3 错误概率的计算  48-57
    2.2.4 URM程序示例  57
  2.3 程序的容错能力  57-60
    2.3.1 错误流图的出口  58-59
    2.3.2 程序的容错能力  59-60
  2.4 错误流关键子图  60-67
    2.4.1 从关键结点生成关键子图  61-63
    2.4.2 从关键路径生成关键子图  63-64
    2.4.3 关键子图的复制  64-66
    2.4.4 关键结点和关键路径的选取  66-67
  2.5 小结  67-68
第三章 优化程序的性能和容错能力  68-90
  3.1 提高完全冗余的性能并降低功耗  69-81
    3.1.1 分支指令对性能和功耗的危害  69-70
    3.1.2 EDDI算法  70-73
    3.1.3 错误流压缩算法  73-81
  3.2 通过部分冗余进一步减小开销  81-84
    3.2.1 部分冗余算法  81-84
  3.3 无冗余容错编译  84-88
    3.3.1 基于错误流分析的等价变换  84-88
  3.4 小结  88-90
第四章 双冗余容错系统的错误流分析  90-104
  4.1 双冗余容错系统  90-91
  4.2 双冗余容错系统分析  91-102
    4.2.1 双冗余容错系统的容错能力分析  91-99
    4.2.2 双冗余容错系统的性能分析  99-102
  4.3 小结  102-104
第五章 未来的工作和展望  104-106
结束语  106-108
致谢  108-110
参考文献  110-128
作者在学期间取得的学术成果  128-130
附录A 实验环境配置  130-131

相似论文

  1. 3-TPS混联机床运动仿真与控制算法研究,TG502.12
  2. 分布式文件系统容错能力测试平台的设计与实现,TP302.8
  3. 锅炉过热汽温的GGAP-RBF神经网络控制,TP273.5
  4. 两平移一转动并联中医推拿机器人控制研究,TP242.6
  5. 混合P2P网络基于后备超级节点的容错机制研究,TP393.02
  6. 面向星载计算机瞬时故障的软件控制流错误检测技术,TP311.52
  7. 基于CORBA的分布式技术及其在武汉路桥管理系统中的应用,TP393.09
  8. 基于语义空间的计算机辅助色彩设计研究,TP391.72
  9. 粗糙集理论与专家系统相结合的电网故障诊断系统的研究,TM76
  10. 可能性构造空间理论与计算机作曲思维模型研究,TP18
  11. 容错硬实时系统的可调度性分析,TP303
  12. 空间计算机结构的动力学仿真与适应性设计研究,TP391.9
  13. 复杂网络的演化机制及若干动力学行为研究,O157.5
  14. 基于WinCE平台的故障分析仪应用程序设计与开发,TP311.52
  15. 面向SMDA的服务建模方法及工具实现,TP311.52
  16. 面向软件的故障注入工具的研究与实现,TP311.52
  17. 异构环境下企业互操作技术及在物资供应链系统中的应用,TP311.52
  18. 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
  19. 光电对抗试验系统软件平台开发,TP311.52
  20. 电力负荷管理终端测试装置软件系统研制,TP311.52
  21. 基于NS2的PeerCast模拟平台设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com