学位论文 > 优秀研究生学位论文题录展示

机群作业管理系统研究

作 者: 雷州
导 师: 祝明发
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机系统结构
关键词: 机群系统 机群作业管理 作业调度 结点分配 负载平衡 检查点切取 进程迁移 资源管理 吞吐率 平均响应时间
分类号: TP315
类 型: 博士论文
年 份: 1999年
下 载: 238次
引 用: 2次
阅 读: 论文下载
 

内容摘要


计算机在50多年的发展中经历了五次重大的变革,大规模并行处理成为第五代计算机的最重要特征。机群系统以其卓越的性能价格比和良好的可扩展性等因素成为当今计算机体系结构与并行处理的发展方向,能够充分满足我们对计算机处理能力不断增长的需求,是当前的研究热点。 机群作业管理系统直接关系到机群性能的发挥和使用率的提高,是机群的一个重要组成部分。它能够充分利用机群的硬件软件资源及宝贵的CPU时间,有效地管理机群,合理调度作业,因此对机群作业管理系统的研究具有举足轻重的意义。 鉴于作业管理在机群系统中的重要地位,我们展开了对机群作业管理系统的研究。本文在总结前人工作的基础上,系统地研究了机群作业管理的关键问题,提出了机群作业调度的一种新的解决方案,最后就我们开发的基于曙光2000的作业管理系统进行了总结。主要工作包括: 1) 针对对机群作业管理系统的基本概念、组成、功能、特征等方面作了系统的概括。 2) 研究了几种MPP和机群系统上的作业管理系统,分析了它们的背景、基本结构、工作方式和功能特点,最后确立了作业管理系统的评判标准。 3) 从重要性的角度,设计与实现机群作业管理系统的关键问题可分为六个方面:可扩展性、负载平衡、检查点切取、进程迁移、作业调度及其它(资源管理、容错性、多用户特性等)。这几个方面既包括机群作业管理系统的重点,也包括难点。本文就当前它们的研究现状和解决方法进行了论述。

全文目录


摘要  4-6
Abstract  6-12
第一章 引言  12-20
  1.1 研究机群作业管理系统的意义  12-15
    1.1.1 机群系统是当今计算机体系结构发展的方向  12-14
    1.1.2 作业管理系统在机群系统中的重要地位  14-15
  1.2 研究的目的和内容  15-16
    1.2.1 研究的目的  15-16
    1.2.2 主要工作  16
  1.3 小结  16-18
  参考文献  18-20
第二章 机群作业管理系统的基本概念与评价标准  20-30
  2.1 机群作业管理系统的基本术语  20-23
  2.2 机群作业管理的内容  23-26
    2.2.1 负载共享  23-24
    2.2.2 批处理  24-25
    2.2.3 作业调度  25-26
  2.3 机群作业管理系统的基本组成  26
  2.4 机群作业管理系统评价标准  26-28
  2.5 小结  28-29
  参考文献  29-30
第三章 具有代表性的几种机群作业管理系统  30-44
  3.1 LoadLeveler  30-33
    3.1.1 概述  30
    3.1.2 实现策略  30-33
    3.1.3 特点介绍  33
  3.2 DQS  33-34
  3.3 LSF  34-37
    3.3.1 概述  34
    3.3.2 系统结构  34-36
    3.3.3 特点介绍  36-37
  3.4 Condor  37-39
  3.5 NQE  39-40
  3.6 对上述系统的评价  40-41
  3.7 小结  41-42
  参考文献  42-44
第四章 设计与实现机群作业管理系统的几个关键问题  44-69
  4.1 可扩展性  44-46
    4.1.1 可扩展性概述  44-45
    4.1.2 可扩展性设计原则  45-46
  4.2 负载平衡  46-49
    4.2.1 负载平衡概述  46-47
    4.2.2 负载的确定  47-48
    4.2.3 负载平衡算法  48-49
  4.3 检查点切取  49-55
    4.3.1 检查点切取技术概述  50
    4.3.2 切取检查点应解决的问题  50-52
    4.3.3 检查点切取技术实现的考虑  52-55
      4.3.3.1 开销考虑  52-53
      4.3.3.2 算法选取  53-54
      4.3.3.3 策略取舍  54
      4.3.3.4 其它考虑  54-55
  4.4 进程迁移  55-58
    4.4.1 进程迁移概述  55
    4.4.2 进程状态管理  55-58
    4.4.3 进程迁移策略  58
  4.5 作业调度  58-62
    4.5.1 调度概述  59-60
    4.5.2 常用作业调度策略  60-61
    4.5.3 作业调度策略衡量准则  61-62
  4.6 资源管理、容错性、多用户特性等  62-64
  4.7 小结  64-65
  参考文献  65-69
第五章 系统负载与程序运行时间关系的研究  69-87
  5.1 研究的动机  69-70
  5.2 系统负载描述  70-72
  5.3 系统负载与程序运行时间关系实验  72-77
    5.3.1 实验依据  72-74
    5.3.2 实验概述  74-75
    5.3.3 CPU负载状态跟踪器  75-76
    5.3.4 作业提交平台  76-77
    5.3.5 PVM Benchmark程序  77
  5.4 CPU负载与程序执行时间的关系  77-81
    5.4.1 数据处理  78-80
    5.4.2 结论分析  80-81
  5.5 小结  81-83
  参考文献  83-85
  附录  85-87
第六章 基于受限负载平衡串行作业优先公平调度策略  87-112
  6.1 算法研究的由来  87-92
    6.1.1 机群作业的运行方式  87-88
    6.1.2 机群工作负载的特征.  88-89
    6.1.3 机群作业管理的性能指标  89-91
    6.1.4 作业调度与结点分配研究的重要意义  91-92
  6.2 串行作业优先公平作业调度  92-98
    6.2.1 当前普遍采用的作业调度策略.  92-93
    6.2.2 算法提出的动机  93-94
    6.2.3 算法的基本思想  94-95
    6.2.4 算法描述  95-98
  6.3 基于受限负载平衡结点分配  98-102
    6.3.1 结点分配策略的分类及现状  98-99
    6.3.2 算法的提出  99-100
    6.3.3 算法的基本思想  100-101
    6.3.4 算法描述  101-102
  6.4 性能分析  102-109
    6.4.1 实验概述  103
    6.4.2 公平的作业调度  103-104
    6.4.3 串行作业优先调度对系统平均响应时间的影响  104-107
    6.4.4 受限负载平衡结点分配对系统吞吐率的提高  107-108
    6.4.5 结果分析  108-109
  6.5 小结  109-110
  参考文献  110-112
第七章 基于曙光2000作业管理系统JOSS的设计与实现  112-135
  7.1 曙光2000概述  112-115
    7.1.1 曙光2000的硬件结构  112-113
    7.1.2 曙光2000的系统软件  113-115
  7.2 作业管理系统JOSS的设计  115-120
    7.2.1 指导思想与设计目标  115-116
    7.2.2 JOSS的整体结构  116-118
    7.2.3 系统运作流程  118-120
  7.3 作业管理系统JOSS的实现  120-124
    7.3.1 守护进程masterd的实现  120-122
    7.3.2 守护进程execd的实现  122-123
    7.3.3 实用工具实现模式与举例  123-124
  7.4 对几个关键问题的处理  124-129
    7.4.1 系统资源管理  125-126
    7.4.2 负载平衡与调度算法设计  126-128
    7.4.3 作业进程管理  128-129
  7.5 作业管理系统JOSS的特点介绍  129-131
  7.6 作业管理系统JOSS作业的实际运行  131-133
    7.6.1 JOSS作业的提交  131-132
    7.6.2 串行作业的运行  132
    7.6.3 并行作业的运行  132-133
  7.7 小结  133-134
  参考文献  134-135
第八章 总结和展望  135-140
  8.1 工作总结  135-138
  8.2 工作的不足和今后的展望  138-140
个人简历  140

相似论文

  1. 频繁图结构并行挖掘算法的研究与实现,TP311.13
  2. 基于Ad Hoc网络技术的野战通信网络关键技术研究,TN929.5
  3. 遥感数据处理网格平台的设计与初步实现,TP79
  4. 基于GIS的滕州市水资源管理系统的设计与实现,TV213.4
  5. 微粒群算法的改进与应用研究,TP18
  6. Linux集群环境下作业调度算法的研究与实现,TP301.6
  7. 基于一种新经济模型的异构网络选择算法,TN929.5
  8. TD-SCDMA集群系统中负荷控制策略的研究与仿真,TN929.533
  9. 无线异构网络联合呼叫接纳控制算法研究,TN929.5
  10. 基于云计算的软件资源服务平台研究,TP311.52
  11. 基于网络存储的流媒体服务器系统,TN919.8
  12. 无线传感器网络路由算法研究,TP212.9
  13. 基于TD-SCDMA的集群通信系统链路负荷控制算法研究,TN929.533
  14. 基于Hadoop的云存储系统客户端的设计与实现,TP333
  15. 网络环境下的分布式存储系统的设计与实现,TP333
  16. 认知网络中面向QoS的资源管理机制研究,TN915.09
  17. 高吞吐率XTS-AES加密算法的硬件实现,TP309.7
  18. 新型集装箱码头混合装卸优化调度策略研究,U691.3
  19. 飞机总装移动装配线作业调度优化研究,V262.43
  20. 云存储中的数据动态平衡技术研究,TP333
  21. 云南电信网络资源管理系统改进规划与实施研究,F626

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 管理程序、管理系统
© 2012 www.xueweilunwen.com