学位论文 > 优秀研究生学位论文题录展示

基于核的连续空间增强学习方法及应用研究

作　者: 张鹏程
导　师: 徐昕
学　校: 国防科学技术大学
专　业: 控制科学与工程
关键词: 增强学习连续空间核方法递推最小二乘动态规划马尔可夫决策过程神经网络
分类号: TP181
类　型: 硕士论文
年　份: 2009年
下　载: 39次
引　用: 0次
阅　读: 论文下载

内容摘要

增强学习方法作为求解序贯(Sequential)优化决策问题(通常建模为马氏决策问题:Markov Decision Problems)的一类有效方法,已经成为近年来机器学习和人工智能领域研究的热点。然而目前大量研究成果仍然针对的是小规模、离散状态空间问题,对许多实际工程中存在的大规模和连续空间优化决策问题往往难以保证算法的收敛性,且存在学习效率不高的缺点。ACD(Adaptive Critic Design)方法作为一种典型的执行器-评价器(Actor-Critic)结构连续空间增强学习方法,由于有效地结合了动态规划思想,被认为是非常具有应用前景的方法。因此,本文重点研究了ACD方法尤其是其中的对偶启发式规划(Dual Heuristic Programming,DHP)方法的原理结构、算法实现、学习控制性能等,并对评价器模块基于神经网络实现的DHP方法进行了多种方式的改进,提升了方法的收敛性能和学习控制性能。本文在国家自然科学基金项目“基于核的增强学习与近似动态规划方法研究”的支持下,主要从三个方面展开研究工作,即:分析研究了ACD学习方法的算法原理和结构组成,主要分析了其中的DHP方法并对其进行了算法实现和性能验证;将递推最小二乘(Recursive Least Squares Temporal Difference,RLS-TD )与DHP相结合,提出RLS-DHP方法并对其收敛性能和泛化性能进行了理论分析和仿真实验验证;提出核DHP方法,通过理论推导、算法结构设计等方式详细分析了核DHP方法的学习控制性能并对其进行了实验验证。在整个研究过程中,取得的主要成果包括:1、首先对ACD方法,主要是其中的DHP方法,在原有理论分析的基础上采用神经网络结构对方法的两个主要模块(Actor模块和Critic模块)进行了设计,并根据公式推导过程选择算法所需的各种函数结构和参数。然后针对具体的Cart-Pole平衡控制问题进行了算法实现,通过变换参数研究了DHP方法在不同条件下的学习控制性能,并采用几种传统控制方法(PID、LQR)实现了对系统的平衡控制。最后结合两类方法的控制结果验证了DHP方法的有效性,证明了学习控制方法相对于传统控制方法具有更为优秀的逼近性能和自适应调整能力。2、针对评价器模块基于神经网络构造的DHP方法中存在着无法保证算法全局收敛性和算法学习效率不高等缺点,本文提出将RLS-TD方法引入DHP方法的评价器模块,优化了权值更新和目标函数逼近过程。文中首先介绍了RLS-TD方法的理论原理,随后给出了将其与DHP方法结合的具体方式,并根据已有的研究成果从理论上分析证明了所提出的RLS-DHP方法可以同时保证两个模块的收敛性,给出了收敛性条件。在理论分析的基础上,进一步将DHP和RLS-DHP两种方法应用到连续搅拌釜式反应器(CSTR)的控制问题中,并针对CSTR控制系统的特点分别设计了两种方法的算法结构,选择了各自相应的逼近函数和训练策略。最后,通过算法的具体实现,对比了采用不同函数逼近器的RLS-DHP方法之间以及DHP方法和各种新方法之间的学习控制性能,分析结果表明改进后方法提高了现有DHP方法的收敛精度和学习控制性能,验证了算法的有效性。3、为了解决RLS-DHP方法在面对高维状态空间和复杂系统时存在的需要大量人工选取特征的问题,提出将核方法与连续空间增强学习方法相结合的思想。首先简要介绍了核方法的理论基础和利用核方法进行自动特征构造的实现方式,进而针对具体的控制问题将核方法引入DHP方法的训练机制中,并利用核方法自动构造基函数的特点优化了RLS-DHP方法的训练过程。最后通过实验结果验证了核DHP方法能进一步减少算法对人类经验知识的依赖,使算法的训练策略更具有一般性,提高了其泛化性能,也为连续空间增强学习方法在多种类型控制问题中的应用推广提供了一种新的思路。在本文的最后一章对下一步研究工作和目前还存在的挑战进行了总结。

全文目录

摘要  8-10
ABSTRACT  10-12
第一章绪论  12-21
  1.1 研究背景概述  12-13
  1.2 连续空间增强学习的发展现状及趋势  13-18
    1.2.1 连续空间增强学习理论及算法的研究现状  13-16
    1.2.2 连续空间增强学习方法的实际应用及发展趋势  16-18
  1.3 核方法的发展现状及趋势  18-19
    1.3.1 核方法的发展现状  18-19
    1.3.2 核方法的应用趋势  19
  1.4 本文主要研究内容及成果  19-21
第二章连续空间增强学习理论及其算法实现  21-44
  2.1 ACD 方法的理论基础  21-26
    2.1.1 Markov 决策问题  21-24
    2.1.2 动态规划理论  24-26
  2.2 ACD 方法的理论框架与算法原理  26-30
    2.2.1 HDP 方法（启发式动态规划）  27-28
    2.2.2 DHP 方法（对偶启发式规划）  28-29
    2.2.3 GDHP 方法（全局对偶启发式规划）  29-30
  2.3 DHP 方法的算法实现及仿真研究  30-43
    2.3.1 Cart-Pole 平衡控制的问题描述  30
    2.3.2 控制对象的系统建模  30-32
    2.3.3 传统控制器设计与仿真  32-34
    2.3.4 基于DHP 方法的控制器设计与仿真  34-39
    2.3.5 各类方法的控制效果分析  39-43
  2.4 小结  43-44
第三章连续空间增强学习方法的改进及应用研究  44-60
  3.1 基于RLS-TD（λ）的连续空间增强学习方法  44-48
    3.1.1 基于RLS-TD（λ）的改进DHP 方法  45-47
    3.1.2 基于RLS-TD（λ）的改进DHP 方法收敛性分析  47-48
  3.2 RLS-DHP 方法的算法实现及仿真研究  48-58
    3.2.1 CSTR 问题的模型描述  48-50
    3.2.2 CSTR 问题的DHP 学习控制器设计与分析  50-53
    3.2.3 RLS-DHP 学习控制器的设计与分析  53-58
  3.3 小结  58-60
第四章基于核的连续空间增强学习方法及应用研究  60-73
  4.1 基于核的连续空间增强学习方法研究  60-63
    4.1.1 核DHP 方法的理论原理  60-62
    4.1.2 核DHP 方法的收敛性分析  62-63
  4.2 核DHP 方法的算法实现及仿真研究  63-68
    4.2.1 核DHP 学习控制器设计  63-65
    4.2.2 学习控制结果及对比分析  65-68
  4.3 基于核的Cart-Pole 平衡控制问题研究  68-72
    4.3.1 核DHP 学习控制器设计  68-70
    4.3.2 学习控制结果及对比分析  70-72
  4.4 小结  72-73
第五章总结和展望  73-76
致谢  76-77
参考文献  77-87
作者在攻读硕士学位期间完成和发表的论文  87-88
附录A 论文相关结构框图  88-90
附录B 缩略词对照表  90

基于核的连续空间增强学习方法及应用研究

内容摘要

全文目录

相似论文