学位论文 > 优秀研究生学位论文题录展示

基于强化学习的自主式移动机器人导航控制

作 者: 任建功
导 师: 李衍杰
学 校: 哈尔滨工业大学
专 业: 控制科学与工程
关键词: 自主式移动机器人 导航 强化学习 相对值迭代
分类号: TP242
类 型: 硕士论文
年 份: 2010年
下 载: 68次
引 用: 0次
阅 读: 论文下载
 

内容摘要


自主式移动机器人可以工作在复杂非结构化环境中,无需人工干预,对环境无特定要求,具有高度自规划和自适应能力,这是一种有目的地自主式移动和完成任务的智能系统。其中,导航技术是移动机器人实现智能化的关键技术之一。在未知环境中,移动机器人需要拥有快速的学习能力,以提高对环境的适应能力,解决在自身不完备知识情况下的复杂问题。强化学习具有通过自我学习来逐渐获取智能行为的特征,在自主式移动机器人导航应用中受到广泛关注。强化学习模拟动物学习的过程,通过不断试错寻求从状态到动作相适应的映射关系,最终获得最优化的动作状态策略集。针对学习过程中传统算法存在收敛慢,非即时报酬的估计存在时间约束,占用较多内存资源和计算时间的问题,本文通过对传统强化学习理论的研究,结合了相对值迭代理论和最优化理论,通过合理变形,提出了一种相对值迭代强化学习(RVI-RL)算法,这是基于离散马尔科夫决策过程(MDP)环境下的无需估计平均报酬的强化学习算法。RVI-RL算法是一种无模型算法,免除了对整个任务平均报酬的估计,也免除了因不断修正平均报酬估计所带来的偏差。本论文的实验环境为经典的出租车问题,初始化为栅格型地图,相对于出租车为未知或动态环境,出租车自主行驶过程中,通过试错技术来获取环境状态信息,最终寻求状态与动作的最佳映射。实验表明,在单自主移动机器人导航过程中,RVI-RL算法比Q学习算法和R学习算法更快更稳地收敛于最优策略集;在多自主移动机器人导航环境中,新算法表现出诱发两个机器人协作规划行为的特征,比传统的Q学习算法更合适多机器人协作规划的应用环境。尽管RVI-RL算法消除了平均报酬参数的估计,在大规模状态空间中仍然存在“维数灾难”问题,本论文也讨论了将分层概念引入RVI-RL算法的可行性,实验表明,在收敛于最优策略速度上,RVI-RL算法比MAXQ算法也具有优越性。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-17
  1.1 引言  9-10
  1.2 课题的理论与实际意义  10
  1.3 强化学习的研究进展  10-12
    1.3.1 强化学习简述  10-11
    1.3.2 强化学习主流算法  11-12
    1.3.3 强化学习应用现状  12
  1.4 自主机器人导航的研究现状  12-15
    1.4.1 自主机器人导航技术研究现状  12-14
    1.4.2 强化学习在单机器人导航中应用现状  14
    1.4.3 强化学习在多机器人导航中应用现状  14-15
  1.5 论文框架和研究内容  15-17
第2章 基于Agent 系统的强化学习简介  17-26
  2.1 智能Agent 简介  17-19
    2.1.1 智能Agent 的定义  17-18
    2.1.2 智能Agent 与环境的交互  18-19
  2.2 强化学习原理简介  19-24
    2.2.1 强化学习的基本原理  20-22
    2.2.2 常用的强化学习算法  22-23
    2.2.3 探索(exploration)策略  23-24
    2.2.4 算法性能评价  24
  2.3 强化学习中常遇到的问题和解决途经  24-25
  2.4 小结  25-26
第3章 强化学习在单个自主移动机器人导航环境中的应用  26-46
  3.1 基于折扣报酬和基于平均报酬的强化学习比较  26-32
    3.1.1 基于折扣报酬的强化学习  26-28
    3.1.2 基于平均报酬的强化学习  28-29
    3.1.3 基于折扣报酬和基于平均报酬的强化学习的比较  29-32
  3.2 Relative Value Iteration(RVI)强化学习(RL)算法的提出  32-35
  3.3 实验仿真以及结果分析  35-39
  3.4 RVI-RL 算法的拓展分析  39-45
  3.5 小结  45-46
第4章 强化学习在多个自主移动机器人导航环境中的应用  46-57
  4.1 基于强化学习的多机器人系统体系结构分析  46-48
  4.2 平均报酬在多机器人协作学习中的必要性分析  48-51
  4.3 分层式结构强化学习的实现方法  51-53
  4.4 实验仿真及结果分析  53-56
  4.5 小结  56-57
第5章 总结与展望  57-59
  5.1 总结  57-58
  5.2 展望  58-59
参考文献  59-64
致谢  64

相似论文

  1. 行星际间飞行的自主导航方法研究,V448.224
  2. 基于微型无人平台导航多传感器信息融合算法研究,V249.32
  3. SINS/GPS组合导航系统算法研究,V249.328
  4. 偏振光/地磁/GPS/SINS组合导航算法研究,V249.328
  5. 医用电磁导航实验系统的研究,TN966
  6. 惯导平台车载试验的仿真系统及辨识方法研究,TN966
  7. 动态环境下移动对象导航系统相关技术的研究,TP301.6
  8. 基于用户需求调查分析的高校图书馆学科导航研究,G252.6
  9. 基于北斗卫星和ZigBee通信技术的广播电视授时系统研究,TN948
  10. 面向GPS导航拖拉机的最优全局覆盖路径规划研究,TN967.1
  11. 移动机器视觉定位导航和自主避障系统的研究,TP242
  12. 基于蜜蜂视觉机理的光流辅助导航,TP391.41
  13. 融合视觉与惯性导航的机器人自主定位,TP242
  14. 惯性导航系统姿态信息校正设计,TN966
  15. 自主水下航行器组合导航算法研究与系统实现,U666.1
  16. 北斗卫星导航系统中射频前端电路的研究与设计,TN967.1
  17. 基于Android的工程导航系统设计,TN929.5
  18. 工程现场监管导航系统的设计与实现,TN966
  19. NVD高清视频编著系统的设计与实现,TP391.41
  20. 卫星编队星间相对测量技术研究,V448.2
  21. 车辆导航系统路径规划技术的研究,TP301.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人
© 2012 www.xueweilunwen.com