学位论文 > 优秀研究生学位论文题录展示

基于强化学习的自主式移动机器人导航控制

作　者: 任建功
导　师: 李衍杰
学　校: 哈尔滨工业大学
专　业: 控制科学与工程
关键词: 自主式移动机器人导航强化学习相对值迭代
分类号: TP242
类　型: 硕士论文
年　份: 2010年
下　载: 68次
引　用: 0次
阅　读: 论文下载

内容摘要

自主式移动机器人可以工作在复杂非结构化环境中,无需人工干预,对环境无特定要求,具有高度自规划和自适应能力,这是一种有目的地自主式移动和完成任务的智能系统。其中,导航技术是移动机器人实现智能化的关键技术之一。在未知环境中,移动机器人需要拥有快速的学习能力,以提高对环境的适应能力,解决在自身不完备知识情况下的复杂问题。强化学习具有通过自我学习来逐渐获取智能行为的特征,在自主式移动机器人导航应用中受到广泛关注。强化学习模拟动物学习的过程,通过不断试错寻求从状态到动作相适应的映射关系,最终获得最优化的动作状态策略集。针对学习过程中传统算法存在收敛慢,非即时报酬的估计存在时间约束,占用较多内存资源和计算时间的问题,本文通过对传统强化学习理论的研究,结合了相对值迭代理论和最优化理论,通过合理变形,提出了一种相对值迭代强化学习(RVI-RL)算法,这是基于离散马尔科夫决策过程(MDP)环境下的无需估计平均报酬的强化学习算法。RVI-RL算法是一种无模型算法,免除了对整个任务平均报酬的估计,也免除了因不断修正平均报酬估计所带来的偏差。本论文的实验环境为经典的出租车问题,初始化为栅格型地图,相对于出租车为未知或动态环境,出租车自主行驶过程中,通过试错技术来获取环境状态信息,最终寻求状态与动作的最佳映射。实验表明,在单自主移动机器人导航过程中,RVI-RL算法比Q学习算法和R学习算法更快更稳地收敛于最优策略集;在多自主移动机器人导航环境中,新算法表现出诱发两个机器人协作规划行为的特征,比传统的Q学习算法更合适多机器人协作规划的应用环境。尽管RVI-RL算法消除了平均报酬参数的估计,在大规模状态空间中仍然存在“维数灾难”问题,本论文也讨论了将分层概念引入RVI-RL算法的可行性,实验表明,在收敛于最优策略速度上,RVI-RL算法比MAXQ算法也具有优越性。

全文目录

摘要  4-5
Abstract  5-9
第1章绪论  9-17
  1.1 引言  9-10
  1.2 课题的理论与实际意义  10
  1.3 强化学习的研究进展  10-12
    1.3.1 强化学习简述  10-11
    1.3.2 强化学习主流算法  11-12
    1.3.3 强化学习应用现状  12
  1.4 自主机器人导航的研究现状  12-15
    1.4.1 自主机器人导航技术研究现状  12-14
    1.4.2 强化学习在单机器人导航中应用现状  14
    1.4.3 强化学习在多机器人导航中应用现状  14-15
  1.5 论文框架和研究内容  15-17
第2章基于Agent 系统的强化学习简介  17-26
  2.1 智能Agent 简介  17-19
    2.1.1 智能Agent 的定义  17-18
    2.1.2 智能Agent 与环境的交互  18-19
  2.2 强化学习原理简介  19-24
    2.2.1 强化学习的基本原理  20-22
    2.2.2 常用的强化学习算法  22-23
    2.2.3 探索(exploration)策略  23-24
    2.2.4 算法性能评价  24
  2.3 强化学习中常遇到的问题和解决途经  24-25
  2.4 小结  25-26
第3章强化学习在单个自主移动机器人导航环境中的应用  26-46
  3.1 基于折扣报酬和基于平均报酬的强化学习比较  26-32
    3.1.1 基于折扣报酬的强化学习  26-28
    3.1.2 基于平均报酬的强化学习  28-29
    3.1.3 基于折扣报酬和基于平均报酬的强化学习的比较  29-32
  3.2 Relative Value Iteration(RVI)强化学习(RL)算法的提出  32-35
  3.3 实验仿真以及结果分析  35-39
  3.4 RVI-RL 算法的拓展分析  39-45
  3.5 小结  45-46
第4章强化学习在多个自主移动机器人导航环境中的应用  46-57
  4.1 基于强化学习的多机器人系统体系结构分析  46-48
  4.2 平均报酬在多机器人协作学习中的必要性分析  48-51
  4.3 分层式结构强化学习的实现方法  51-53
  4.4 实验仿真及结果分析  53-56
  4.5 小结  56-57
第5章总结与展望  57-59
  5.1 总结  57-58
  5.2 展望  58-59
参考文献  59-64
致谢  64

基于强化学习的自主式移动机器人导航控制

内容摘要

全文目录

相似论文