学位论文 > 优秀研究生学位论文题录展示

基于高斯回归的连续空间多智能体强化学习算法研究

作　者: 魏海军
导　师: 陈鑫
学　校: 中南大学
专　业: 控制科学与工程
关键词: 多智能体系统基于模型的强化学习泛化维数灾难高斯回归
分类号: TP181
类　型: 硕士论文
年　份: 2013年
下　载: 24次
引　用: 0次
阅　读: 论文下载

内容摘要

摘要：本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限制了强化学习的适应范围,使得空间泛化成为提高强化学习的实用性的一个重要步骤。同时,随着多智能体系统理论研究的进展,强化学习理论也从简单的单智能体强化学习发展到复杂的多智能体强化学习。然而,在多智能体系统环境下,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题更加突出,导致学习效率低下,甚至破坏学习的收敛性。本文针对多智能体强化学习中的空间泛化与学习降维两个关键问题进行研究。一方面,通过建立状态值函数模型、状态-动作对值函数模型、策略函数模型分别实现状态空间、动作空间、策略空间的泛化。另一方面提出一种基于联合状态-个体动作的降维Q函数定义,实现学习空间与存储空间的双重降维,同时采用基于模型的学习方法提高学习效率。首先,根据强化学习基本定义,结合多智能体系统应用环境,讨论多智能体强化学习的一般框架及其相对应的典型算法。分析多智能体强化学习中泛化与降维这两个问题的本质,并给出解决问题的总体思路与理论指导。其次,假设已知环境联合奖赏函数、非学习智能体执行静态稳定策略,在定义降维跟踪学习值函数的基础之上,提出一种基于高斯回归的连续空间多智能体跟踪学习算法。通过高斯回归方法建立值函数模型实现空间泛化,采用基于模型的学习方法提高学习效率,并从时间复杂度、空间复杂度两个方面分析算法性能。再次,为进一步扩展算法的适应性,突破上述假设条件,提出改进型多智能体连续空间基于模型的跟踪学习算法。通过观察环境对系统的联合鉴赏与记录个体历史鉴赏,采用一种新型的个体鉴赏函数迭代逼近方法,获取智能体个体鉴赏函数。此外,在线建立实时的行为策略模型,用于改进学习样本空间的更新方法。然后,在MAS MBRL-CPT算法的基础上,引入基于分时学习的协调机制,使得所有智能体均能通过交替学习轮番更新自己的响应策略,引导合作策略的持续优化,最终实现同时学习功能,并形成最优合作策略。最后,利用Multi-Cart-Pole与Line-up平衡控制系统仿真验证所提算法的正确性和有效性。

全文目录

摘要  4-6
Abstract  6-10
1 绪论  10-18
  1.1 研究背景、目的及意义  10-11
  1.2 国内外研究现状  11-14
  1.3 研究内容  14-15
  1.4 论文结构  15-18
2 多智能体强化学习的泛化与降维  18-30
  2.1 多智能体强化学习  18-25
    2.1.1 强化学习  18-20
    2.1.2 多智能体系统特点  20-21
    2.1.3 多智能体系统描述  21
    2.1.4 多智能体强化学习典型框架和算法分析  21-25
  2.2 泛化与降维  25-28
    2.2.1 维数灾难与泛化问题  25-26
    2.2.2 基于值函数的降维  26-27
    2.2.3 基于高斯回归的泛化  27-28
  2.3 本章小结  28-30
3 基于高斯回归的连续空间多智能体跟踪学习  30-42
  3.1 算法框架设计  30-33
    3.1.1 降维的跟踪学习值函数  30-31
    3.1.2 基于动态规划的跟踪学习框架  31-33
  3.2 算法实现  33-36
    3.2.1 多智能体环境下的高斯回归模型  33-34
    3.2.2 鉴赏函数设计  34-35
    3.2.3 基于贝叶斯主动学习的样本集调整  35-36
    3.2.4 算法流程  36
  3.3 算法性能分析  36-37
    3.3.1 模型有效性  36
    3.3.2 空间复杂度  36-37
    3.3.3 时间复杂度  37
  3.4 仿真实验与分析  37-41
  3.5 本章小结  41-42
4 改进型多智能体连续空间基于模型的跟踪学习  42-54
  4.1 MAS MBRL-CPT算法框架设计  42-43
  4.2 MAS MBRL-CPT算法的改进  43-45
    4.2.1 基于高斯回归的在线策略模型  43-44
    4.2.2 样本空间个体即时回报的迭代学习  44
    4.2.3 基于即时策略添加样本  44
    4.2.4 MBRL-CPT算法流程  44-45
  4.3 算法性能分析  45-47
    4.3.1 稳定性分析  45-46
    4.3.2 空间复杂度  46-47
    4.3.3 时间复杂度  47
  4.4 仿真实验与分析  47-52
  4.5 本章小结  52-54
5 基于分时跟踪的连续多智能体策略学习  54-62
  5.1 基于分时跟踪的学习框架  54-55
  5.2 CMLBTT算法实现  55-57
    5.2.1 交替学习的切换条件  55-56
    5.2.2 基于高斯回归的环境模型  56-57
    5.2.3 CMLBTT算法流程  57
  5.3 算法性能分析  57-58
    5.3.1 模型稳定性  57-58
    5.3.2 空间复杂度  58
    5.3.3 时间复杂度  58
  5.4 仿真实验与分析  58-60
  5.5 本章小结  60-62
6 结论与展望  62-64
  6.1 结论  62-63
  6.2 展望  63-64
参考文献  64-70
攻读学位期间主要的研究成果目录  70-72
致谢  72

基于高斯回归的连续空间多智能体强化学习算法研究

内容摘要

全文目录

相似论文