学位论文 > 优秀研究生学位论文题录展示

高端容错计算系统高可靠监控子系统的研究和设计

作 者: 罗路明
导 师: 杨孝宗
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 高可靠 监控机制 三模表决
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 112次
引 用: 0次
阅 读: 论文下载
 

内容摘要


高端容错计算系统是关键应用领域中的重要信息化设备,此类系统一方面具有较强的事务处理能力,另外一方面具有较高的可靠性,可长期提供高速、稳定的信息处理服务。高端容错计算系统中任何信息的丢失和破坏、异常停机都会产生重大影响,因而要求系统有连续运行的能力,即高可用性。本文以研究刀片服务器系统这样的高端容错计算系统为基础,利用双机容错系统的方法和技术,完成了其高可靠监控子系统的设计,从而达到了刀片服务器系统的高可用。监控子系统可以选择多刀片中的任意两个计算刀片,这样它们一起组成一个高可用的Leader层。监控子系统采用三模冗余的高可靠设计技术,使Leader层成为刀片系统的高可用的核心。监控子系统仲裁过程的成功与否是影响容错计算系统可用性的主要方面。当选择的两Leader刀片均正常时,服务的提供与单机系统几乎完全相同。只有发生严重故障时,Leader层可以进行重构,可以继续使用好的计算刀片对外提供服务,从而显示出相对于单机系统的优越性。但是如果仲裁过程不成功,则Leader层系统与单机系统相比没有任何优势。通过对仲裁过程进行了分析,建立考虑中间处理过程成功率的马尔可夫模型,并进行典型系统分析,综合热备份系统和互备援系统,得到结论:多刀片容错计算系统在对需要进行系统重构的故障进行处理中,故障检测、故障诊断两个过程是至关重要的。本文研究了常用的仲裁技术,分析了实际的系统需求与现有技术的冲突,在实际需求的基础上,提出了一种高可用的监控机制,在整个监控过程中提供硬件支持,完成了对高端容错计算系统高可靠监控子系统的硬件设计工作,实现了三模表决、CPLD、USB多路选择、热插拔等具体技术。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 课题背景  9-10
  1.2 论文中涉及的重要概念  10-11
    1.2.1 故障  10
    1.2.2 可靠性及相关概念  10-11
  1.3 常用服务器高可用技术介绍  11-13
    1.3.1 硬件冗余技术  12
    1.3.2 纠检错编码技术  12-13
    1.3.3 软件容错技术  13
  1.4 论文研究内容及结构  13-15
第2章 高可靠监控子系统仲裁机制研究  15-27
  2.1 仲裁过程  15-16
  2.2 传统的仲裁技术  16-18
  2.3 双机容错系统可用性分析  18-26
    2.3.1 传统的双机系统可用性模型  18-19
    2.3.2 互备援系统可用性模型  19-23
    2.3.3 热备份系统可用性模型  23-26
  2.4 本章小结  26-27
第3章 高端容错计算系统的结构及监控机制  27-37
  3.1 系统设计要求  27
  3.2 高端容错计算系统的结构及容错机制  27-31
    3.2.1 硬件结构  27-29
    3.2.2 软件结构  29-30
    3.2.3 系统容错机制  30-31
  3.3 高可靠监控机制  31-36
    3.3.1 监控子系统基本设计原理  31-32
    3.3.2 监控子系统示意图  32-33
    3.3.3 监控子系统的故障检测  33-34
    3.3.4 监控子系统工作原理  34-36
  3.4 本章小结  36-37
第4章 高可靠监控子系统设计和实现  37-57
  4.1 功能需求分析  37
  4.2 监控子系统的硬件结构设计  37-40
  4.3 监控节点间的总线通信及控制  40-42
    4.3.1 总线介绍  40-41
    4.3.2 总线通信策略  41-42
  4.4 USB选择部件的设计  42-46
    4.4.1 切换芯片的选择  42-43
    4.4.2 USB选择部件的实现  43-45
    4.4.3 USB选择部件和单片机的连接  45-46
  4.5 CPLD的设计  46-52
    4.5.1 功能介绍  46-47
    4.5.2 具体命令定义  47-48
    4.5.3 时钟控制电路  48
    4.5.4 切换控制  48-50
    4.5.5 看门狗  50-52
  4.6 CPCI热插拔实现  52-53
  4.7 监控子系统可靠性评价  53-56
    4.7.1 常用可靠性评价方法  53-55
    4.7.2 监控子系统可靠性评价  55-56
  4.8 本章小结  56-57
结论  57-58
参考文献  58-63
致谢  63

相似论文

  1. 国有企业高管权力运行监控机制研究,F276.1
  2. NCUC-Bus现场总线技术研究及实现,TP273.5
  3. 600MW机组国产控制系统的研究与应用,TP273
  4. 战术互联网安全分簇算法研究,TP393.08
  5. COTS器件ADV212的宇航应用研究,TN03
  6. 邮政金融网RAC优化技术研究与实现,TP311.13
  7. 虚拟集群环境下多虚拟机协同检查点容错系统,TP302.8
  8. MPLS网络中优雅重启与不间断转发技术的研究,TP393.02
  9. 分布式FCoE交换机链路模块的设计与实现,TP311.52
  10. 基于KUSU的超大规模Linux集群系统的设计与实现,TP311.52
  11. AS T3_RPS系统架构和关键算法研究,TH751
  12. 精密仪器中高可靠存储模块的设计与实现,TP333
  13. 高稳低相噪小型恒温晶体振荡器,TN752.2
  14. 面向现场升级的嵌入式机电仪器仪表使能技术研究,TP368.1
  15. π型厚膜电阻式衰减器的研制,TN715
  16. 基于集中式WLAN的高可靠性N+1备份研究,TN925.93
  17. 独立学院教学质量监控机制及技术支持研究,G642.4
  18. 移动通信系统中预付费用户增值业务实时扣费系统的设计及实现,F626
  19. 计算机控制系统可靠性设计,TP273.5
  20. SPT薄穿通IGBT的设计,TN386

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com