学位论文 > 优秀研究生学位论文题录展示

基于强化学习的多机器人协作控制方法研究

作　者: 姜新丽
导　师: 魏英姿
学　校: 沈阳理工大学
专　业: 模式识别与智能系统
关键词: 多机器人系统强化学习路径规划模糊Q学习协作围捕
分类号: TP242
类　型: 硕士论文
年　份: 2010年
下　载: 73次
引　用: 3次
阅　读: 论文下载

内容摘要

多机器人协作是研究机器人领域的一项重要课题。由于多机器人协作可以完成单机器人无法完成的工作,因此越来越多的学者专注于多机器人系统的研究。目前对于多机器人系统而言,外部环境复杂多变且其可能面临多种选择,若只提供相对的控制参数,多机器人之间将难以形成有效的协作,难免产生资源浪费和冲突。为促进机器人有效协作和系统优化,研究学者更加注重了机器人自身的学习能力。强化学习算法是近几年发展起来的一种重要的机器学习方法,它是机器人通过感知环境信息来学习系统的最优策略。机器人通过不断的试错和与环境的交互来改善自身行为,从而具有了自主学习的能力,可以有效地完成协作。为此本文对基于强化学习的多机器人协作控制方法进行了深入研究,所做了工作如下:(1)系统分析了多机器人系统的概念和组织行为,采用强化学习理论和方法,研究机器人的路径规划问题。通过试错--评价的在线学习,使机器人选择优化的路径从起点运动到目标点,得到所需的机器人运动行为的规划规则,为进一步研究多机器人系统协作行为的控制方法奠定理论基础。(2)提出多机器人协作围捕的混合强化学习方法。将强化学习系统拆分为两个学习子系统--目标追踪子系统与目标围捕子系统,以解决复杂协作围捕问题,利用模糊逻辑来解决多机器人系统状态空间大的问题,同时引入启发式奖惩函数设计的思想,以提高机器人搜索目标的效率,采用黑板通信与基于协商和意愿强化的协调方法,解决机器人之间的行为冲突,通过面向对象编程技术的仿真试验验证了上述方法的有效性。

全文目录

摘要  6-7
Abstract  7-10
第1章绪论  10-18
  1.1 课题研究的背景及意义  10
  1.2 多机器人协作控制方法研究  10-12
  1.3 多机器人系统及强化学习在其应用的研究现状  12-17
    1.3.1 多机器人系统的研究现状  12-15
    1.3.2 强化学习在多机器人系统中应用的研究现状  15-17
  1.4 本文的组织结构  17-18
第2章强化学习理论与算法  18-25
  2.1 马尔可夫决策过程  18
  2.2 强化学习系统的模型与基本要素  18-21
  2.3 强化学习的主要算法  21-24
    2.3.1 动态规划算法  21-22
    2.3.2 蒙特卡罗算法  22-23
    2.3.3 瞬时差分算法  23
    2.3.4 Q 学习算法  23-24
  2.4 本章小结  24-25
第3章机器人路径规划的强化学习方法  25-39
  3.1 静态环境中机器人路径规划  25-33
    3.1.1 传感器模型  25-26
    3.1.2 静态环境中路径探索策略  26-29
    3.1.3 机器人的动作选择策略  29-31
    3.1.4 仿真实验与分析  31-33
  3.2 动态环境中机器人路径规划  33-38
    3.2.1 动态环境中路径探索策略  34-36
    3.2.2 仿真实验与分析  36-38
  3.3 本章小结  38-39
第4章多机器人协作围捕的混合强化学习方法  39-58
  4.1 系统体系结构  39-41
  4.2 多机器人协作围捕的强化学习系统结构  41-42
  4.3 模糊 Q 学习  42-48
    4.3.1 模糊逻辑介绍  42-44
    4.3.2 模糊 Q 学习  44-48
  4.4 启发式奖惩函数  48-51
    4.4.1 启发式奖惩函数的提出  48-50
    4.4.2 启发式奖惩函数的设计  50-51
  4.5 机器人行为冲突消解  51-52
    4.5.1 黑板通信方式  51-52
    4.5.2 基于协商和意愿强度的协调方法  52
  4.6 仿真实验与分析  52-57
    4.6.1 围捕任务介绍  52-54
    4.6.3 实验结果与分析  54-57
  4.7 本章小结  57-58
结论  58-60
参考文献  60-66
攻读硕士学位期间发表的论文和取得的科研成果  66-67
致谢  67-68

基于强化学习的多机器人协作控制方法研究

内容摘要

全文目录

相似论文