学位论文 > 优秀研究生学位论文题录展示
基于强化学习的自主式移动机器人导航控制
作 者: 任建功
导 师: 李衍杰
学 校: 哈尔滨工业大学
专 业: 控制科学与工程
关键词: 自主式移动机器人 导航 强化学习 相对值迭代
分类号: TP242
类 型: 硕士论文
年 份: 2010年
下 载: 68次
引 用: 0次
阅 读: 论文下载
内容摘要
自主式移动机器人可以工作在复杂非结构化环境中,无需人工干预,对环境无特定要求,具有高度自规划和自适应能力,这是一种有目的地自主式移动和完成任务的智能系统。其中,导航技术是移动机器人实现智能化的关键技术之一。在未知环境中,移动机器人需要拥有快速的学习能力,以提高对环境的适应能力,解决在自身不完备知识情况下的复杂问题。强化学习具有通过自我学习来逐渐获取智能行为的特征,在自主式移动机器人导航应用中受到广泛关注。强化学习模拟动物学习的过程,通过不断试错寻求从状态到动作相适应的映射关系,最终获得最优化的动作状态策略集。针对学习过程中传统算法存在收敛慢,非即时报酬的估计存在时间约束,占用较多内存资源和计算时间的问题,本文通过对传统强化学习理论的研究,结合了相对值迭代理论和最优化理论,通过合理变形,提出了一种相对值迭代强化学习(RVI-RL)算法,这是基于离散马尔科夫决策过程(MDP)环境下的无需估计平均报酬的强化学习算法。RVI-RL算法是一种无模型算法,免除了对整个任务平均报酬的估计,也免除了因不断修正平均报酬估计所带来的偏差。本论文的实验环境为经典的出租车问题,初始化为栅格型地图,相对于出租车为未知或动态环境,出租车自主行驶过程中,通过试错技术来获取环境状态信息,最终寻求状态与动作的最佳映射。实验表明,在单自主移动机器人导航过程中,RVI-RL算法比Q学习算法和R学习算法更快更稳地收敛于最优策略集;在多自主移动机器人导航环境中,新算法表现出诱发两个机器人协作规划行为的特征,比传统的Q学习算法更合适多机器人协作规划的应用环境。尽管RVI-RL算法消除了平均报酬参数的估计,在大规模状态空间中仍然存在“维数灾难”问题,本论文也讨论了将分层概念引入RVI-RL算法的可行性,实验表明,在收敛于最优策略速度上,RVI-RL算法比MAXQ算法也具有优越性。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-17 1.1 引言 9-10 1.2 课题的理论与实际意义 10 1.3 强化学习的研究进展 10-12 1.3.1 强化学习简述 10-11 1.3.2 强化学习主流算法 11-12 1.3.3 强化学习应用现状 12 1.4 自主机器人导航的研究现状 12-15 1.4.1 自主机器人导航技术研究现状 12-14 1.4.2 强化学习在单机器人导航中应用现状 14 1.4.3 强化学习在多机器人导航中应用现状 14-15 1.5 论文框架和研究内容 15-17 第2章 基于Agent 系统的强化学习简介 17-26 2.1 智能Agent 简介 17-19 2.1.1 智能Agent 的定义 17-18 2.1.2 智能Agent 与环境的交互 18-19 2.2 强化学习原理简介 19-24 2.2.1 强化学习的基本原理 20-22 2.2.2 常用的强化学习算法 22-23 2.2.3 探索(exploration)策略 23-24 2.2.4 算法性能评价 24 2.3 强化学习中常遇到的问题和解决途经 24-25 2.4 小结 25-26 第3章 强化学习在单个自主移动机器人导航环境中的应用 26-46 3.1 基于折扣报酬和基于平均报酬的强化学习比较 26-32 3.1.1 基于折扣报酬的强化学习 26-28 3.1.2 基于平均报酬的强化学习 28-29 3.1.3 基于折扣报酬和基于平均报酬的强化学习的比较 29-32 3.2 Relative Value Iteration(RVI)强化学习(RL)算法的提出 32-35 3.3 实验仿真以及结果分析 35-39 3.4 RVI-RL 算法的拓展分析 39-45 3.5 小结 45-46 第4章 强化学习在多个自主移动机器人导航环境中的应用 46-57 4.1 基于强化学习的多机器人系统体系结构分析 46-48 4.2 平均报酬在多机器人协作学习中的必要性分析 48-51 4.3 分层式结构强化学习的实现方法 51-53 4.4 实验仿真及结果分析 53-56 4.5 小结 56-57 第5章 总结与展望 57-59 5.1 总结 57-58 5.2 展望 58-59 参考文献 59-64 致谢 64
|
相似论文
- 行星际间飞行的自主导航方法研究,V448.224
- 基于微型无人平台导航多传感器信息融合算法研究,V249.32
- SINS/GPS组合导航系统算法研究,V249.328
- 偏振光/地磁/GPS/SINS组合导航算法研究,V249.328
- 医用电磁导航实验系统的研究,TN966
- 惯导平台车载试验的仿真系统及辨识方法研究,TN966
- 动态环境下移动对象导航系统相关技术的研究,TP301.6
- 基于用户需求调查分析的高校图书馆学科导航研究,G252.6
- 基于北斗卫星和ZigBee通信技术的广播电视授时系统研究,TN948
- 面向GPS导航拖拉机的最优全局覆盖路径规划研究,TN967.1
- 移动机器视觉定位导航和自主避障系统的研究,TP242
- 基于蜜蜂视觉机理的光流辅助导航,TP391.41
- 融合视觉与惯性导航的机器人自主定位,TP242
- 惯性导航系统姿态信息校正设计,TN966
- 自主水下航行器组合导航算法研究与系统实现,U666.1
- 北斗卫星导航系统中射频前端电路的研究与设计,TN967.1
- 基于Android的工程导航系统设计,TN929.5
- 工程现场监管导航系统的设计与实现,TN966
- NVD高清视频编著系统的设计与实现,TP391.41
- 卫星编队星间相对测量技术研究,V448.2
- 车辆导航系统路径规划技术的研究,TP301.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人
© 2012 www.xueweilunwen.com
|