学位论文 > 优秀研究生学位论文题录展示
基于高斯回归的连续空间多智能体强化学习算法研究
作 者: 魏海军
导 师: 陈鑫
学 校: 中南大学
专 业: 控制科学与工程
关键词: 多智能体系统 基于模型的强化学习 泛化 维数灾难 高斯回归
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
摘要:本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限制了强化学习的适应范围,使得空间泛化成为提高强化学习的实用性的一个重要步骤。同时,随着多智能体系统理论研究的进展,强化学习理论也从简单的单智能体强化学习发展到复杂的多智能体强化学习。然而,在多智能体系统环境下,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题更加突出,导致学习效率低下,甚至破坏学习的收敛性。本文针对多智能体强化学习中的空间泛化与学习降维两个关键问题进行研究。一方面,通过建立状态值函数模型、状态-动作对值函数模型、策略函数模型分别实现状态空间、动作空间、策略空间的泛化。另一方面提出一种基于联合状态-个体动作的降维Q函数定义,实现学习空间与存储空间的双重降维,同时采用基于模型的学习方法提高学习效率。首先,根据强化学习基本定义,结合多智能体系统应用环境,讨论多智能体强化学习的一般框架及其相对应的典型算法。分析多智能体强化学习中泛化与降维这两个问题的本质,并给出解决问题的总体思路与理论指导。其次,假设已知环境联合奖赏函数、非学习智能体执行静态稳定策略,在定义降维跟踪学习值函数的基础之上,提出一种基于高斯回归的连续空间多智能体跟踪学习算法。通过高斯回归方法建立值函数模型实现空间泛化,采用基于模型的学习方法提高学习效率,并从时间复杂度、空间复杂度两个方面分析算法性能。再次,为进一步扩展算法的适应性,突破上述假设条件,提出改进型多智能体连续空间基于模型的跟踪学习算法。通过观察环境对系统的联合鉴赏与记录个体历史鉴赏,采用一种新型的个体鉴赏函数迭代逼近方法,获取智能体个体鉴赏函数。此外,在线建立实时的行为策略模型,用于改进学习样本空间的更新方法。然后,在MAS MBRL-CPT算法的基础上,引入基于分时学习的协调机制,使得所有智能体均能通过交替学习轮番更新自己的响应策略,引导合作策略的持续优化,最终实现同时学习功能,并形成最优合作策略。最后,利用Multi-Cart-Pole与Line-up平衡控制系统仿真验证所提算法的正确性和有效性。
|
全文目录
摘要 4-6 Abstract 6-10 1 绪论 10-18 1.1 研究背景、目的及意义 10-11 1.2 国内外研究现状 11-14 1.3 研究内容 14-15 1.4 论文结构 15-18 2 多智能体强化学习的泛化与降维 18-30 2.1 多智能体强化学习 18-25 2.1.1 强化学习 18-20 2.1.2 多智能体系统特点 20-21 2.1.3 多智能体系统描述 21 2.1.4 多智能体强化学习典型框架和算法分析 21-25 2.2 泛化与降维 25-28 2.2.1 维数灾难与泛化问题 25-26 2.2.2 基于值函数的降维 26-27 2.2.3 基于高斯回归的泛化 27-28 2.3 本章小结 28-30 3 基于高斯回归的连续空间多智能体跟踪学习 30-42 3.1 算法框架设计 30-33 3.1.1 降维的跟踪学习值函数 30-31 3.1.2 基于动态规划的跟踪学习框架 31-33 3.2 算法实现 33-36 3.2.1 多智能体环境下的高斯回归模型 33-34 3.2.2 鉴赏函数设计 34-35 3.2.3 基于贝叶斯主动学习的样本集调整 35-36 3.2.4 算法流程 36 3.3 算法性能分析 36-37 3.3.1 模型有效性 36 3.3.2 空间复杂度 36-37 3.3.3 时间复杂度 37 3.4 仿真实验与分析 37-41 3.5 本章小结 41-42 4 改进型多智能体连续空间基于模型的跟踪学习 42-54 4.1 MAS MBRL-CPT算法框架设计 42-43 4.2 MAS MBRL-CPT算法的改进 43-45 4.2.1 基于高斯回归的在线策略模型 43-44 4.2.2 样本空间个体即时回报的迭代学习 44 4.2.3 基于即时策略添加样本 44 4.2.4 MBRL-CPT算法流程 44-45 4.3 算法性能分析 45-47 4.3.1 稳定性分析 45-46 4.3.2 空间复杂度 46-47 4.3.3 时间复杂度 47 4.4 仿真实验与分析 47-52 4.5 本章小结 52-54 5 基于分时跟踪的连续多智能体策略学习 54-62 5.1 基于分时跟踪的学习框架 54-55 5.2 CMLBTT算法实现 55-57 5.2.1 交替学习的切换条件 55-56 5.2.2 基于高斯回归的环境模型 56-57 5.2.3 CMLBTT算法流程 57 5.3 算法性能分析 57-58 5.3.1 模型稳定性 57-58 5.3.2 空间复杂度 58 5.3.3 时间复杂度 58 5.4 仿真实验与分析 58-60 5.5 本章小结 60-62 6 结论与展望 62-64 6.1 结论 62-63 6.2 展望 63-64 参考文献 64-70 攻读学位期间主要的研究成果目录 70-72 致谢 72
|
相似论文
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 微分进化算法及其在无人机航迹规划中的应用研究,V279
- 基于数字高程模型栅格地图的移动机器人路径规划研究,TP242
- 一个基于聚类的神经网络样本自学习系统,TP391.6
- 基于多Agent的河北冀通路桥公路施工智能决策支持系统研究,TP311.52
- 关联理论视角下的军事用语语义泛化研究,H030
- 网络化多智能体系统的协调控制及一致性问题研究,O231
- 离散多智能体系统的协调控制和一致性研究,TP273
- 基于模型的动态分层强化学习算法研究,TP181
- 基于一致性协议的多智能体系统分布式编队控制的研究,TP273
- 在MDA中基于元模型的模型转换方法研究,TP311.52
- k-匿名隐私保护模型中准标识符最佳值问题的研究,TP309
- 海洋船舶类复杂产品供应链协作机制研究,F426.4
- 复杂多主体战略管控系统建模及应用研究,F224
- 基于MAS的空间数据集成方法研究与实践,P208
- T-S型RBF神经网络在电解液成分建模中的应用研究,TP183
- 基于过程神经网络集成的航空发动机性能衰退预测,TP183
- 网络环境下插画的审美泛化性研究,J218.5
- 基于遗传神经网络的WLAN室内定位算法研究,TP183
- 基于局部泛化误差的半监督图像检索方法,TP391.41
- 数字化时代下艺术审美泛化趋向研究,B83
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|