学位论文 > 优秀研究生学位论文题录展示
基于强化学习的多机器人协作控制方法研究
作 者: 姜新丽
导 师: 魏英姿
学 校: 沈阳理工大学
专 业: 模式识别与智能系统
关键词: 多机器人系统 强化学习 路径规划 模糊Q学习 协作围捕
分类号: TP242
类 型: 硕士论文
年 份: 2010年
下 载: 73次
引 用: 3次
阅 读: 论文下载
内容摘要
多机器人协作是研究机器人领域的一项重要课题。由于多机器人协作可以完成单机器人无法完成的工作,因此越来越多的学者专注于多机器人系统的研究。目前对于多机器人系统而言,外部环境复杂多变且其可能面临多种选择,若只提供相对的控制参数,多机器人之间将难以形成有效的协作,难免产生资源浪费和冲突。为促进机器人有效协作和系统优化,研究学者更加注重了机器人自身的学习能力。强化学习算法是近几年发展起来的一种重要的机器学习方法,它是机器人通过感知环境信息来学习系统的最优策略。机器人通过不断的试错和与环境的交互来改善自身行为,从而具有了自主学习的能力,可以有效地完成协作。为此本文对基于强化学习的多机器人协作控制方法进行了深入研究,所做了工作如下:(1)系统分析了多机器人系统的概念和组织行为,采用强化学习理论和方法,研究机器人的路径规划问题。通过试错--评价的在线学习,使机器人选择优化的路径从起点运动到目标点,得到所需的机器人运动行为的规划规则,为进一步研究多机器人系统协作行为的控制方法奠定理论基础。(2)提出多机器人协作围捕的混合强化学习方法。将强化学习系统拆分为两个学习子系统--目标追踪子系统与目标围捕子系统,以解决复杂协作围捕问题,利用模糊逻辑来解决多机器人系统状态空间大的问题,同时引入启发式奖惩函数设计的思想,以提高机器人搜索目标的效率,采用黑板通信与基于协商和意愿强化的协调方法,解决机器人之间的行为冲突,通过面向对象编程技术的仿真试验验证了上述方法的有效性。
|
全文目录
摘要 6-7 Abstract 7-10 第1章 绪论 10-18 1.1 课题研究的背景及意义 10 1.2 多机器人协作控制方法研究 10-12 1.3 多机器人系统及强化学习在其应用的研究现状 12-17 1.3.1 多机器人系统的研究现状 12-15 1.3.2 强化学习在多机器人系统中应用的研究现状 15-17 1.4 本文的组织结构 17-18 第2章 强化学习理论与算法 18-25 2.1 马尔可夫决策过程 18 2.2 强化学习系统的模型与基本要素 18-21 2.3 强化学习的主要算法 21-24 2.3.1 动态规划算法 21-22 2.3.2 蒙特卡罗算法 22-23 2.3.3 瞬时差分算法 23 2.3.4 Q 学习算法 23-24 2.4 本章小结 24-25 第3章 机器人路径规划的强化学习方法 25-39 3.1 静态环境中机器人路径规划 25-33 3.1.1 传感器模型 25-26 3.1.2 静态环境中路径探索策略 26-29 3.1.3 机器人的动作选择策略 29-31 3.1.4 仿真实验与分析 31-33 3.2 动态环境中机器人路径规划 33-38 3.2.1 动态环境中路径探索策略 34-36 3.2.2 仿真实验与分析 36-38 3.3 本章小结 38-39 第4章 多机器人协作围捕的混合强化学习方法 39-58 4.1 系统体系结构 39-41 4.2 多机器人协作围捕的强化学习系统结构 41-42 4.3 模糊 Q 学习 42-48 4.3.1 模糊逻辑介绍 42-44 4.3.2 模糊 Q 学习 44-48 4.4 启发式奖惩函数 48-51 4.4.1 启发式奖惩函数的提出 48-50 4.4.2 启发式奖惩函数的设计 50-51 4.5 机器人行为冲突消解 51-52 4.5.1 黑板通信方式 51-52 4.5.2 基于协商和意愿强度的协调方法 52 4.6 仿真实验与分析 52-57 4.6.1 围捕任务介绍 52-54 4.6.3 实验结果与分析 54-57 4.7 本章小结 57-58 结论 58-60 参考文献 60-66 攻读硕士学位期间发表的论文和取得的科研成果 66-67 致谢 67-68
|
相似论文
- 动态环境下移动对象导航系统相关技术的研究,TP301.6
- 基于改进蚁群算法的机器人路径规划研究,TP242
- 移动WSN基于虚拟簇头数据收集策略的研究,TP212.9
- 移动机器人全覆盖路径规划算法的研究,TP242
- 复杂动态环境下的小型足球机器人路径规划研究,TP242
- 面向GPS导航拖拉机的最优全局覆盖路径规划研究,TN967.1
- RoboCup中型组足球机器人的设计和开发,TP242
- 移动机器人路径规划研究及仿真实现,TP242
- 双层车库车辆调度辅助决策支持系统,TP242
- 无线传感器网络节点三维定位算法研究,TN929.5
- 基于数字高程模型栅格地图的移动机器人路径规划研究,TP242
- 车库管理系统线路生成与重复利用方法研究,TP315
- 城市交通智能控制策略与仿真系统研究,U495
- 车辆导航系统路径规划技术的研究,TP301.6
- 轮式仿人机器人导航与路径规划研究,TP242
- 船体分段的机器人焊接路径规划与离线编程,TP242
- 城市公交最优化换乘系统研究与实现,U12
- 机器人系统路径规划的研究,TP242
- 超市多任务机器人实用化路径规划方法研究,TP242
- 软件体系结构自适应模型及其智能化研究,TP311.52
- 面向智能清扫机器人的路径规划技术研究,TP242
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人
© 2012 www.xueweilunwen.com
|