学位论文 > 优秀研究生学位论文题录展示
基于核的连续空间增强学习方法及应用研究
作 者: 张鹏程
导 师: 徐昕
学 校: 国防科学技术大学
专 业: 控制科学与工程
关键词: 增强学习 连续空间 核方法 递推最小二乘 动态规划 马尔可夫决策过程 神经网络
分类号: TP181
类 型: 硕士论文
年 份: 2009年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
增强学习方法作为求解序贯(Sequential)优化决策问题(通常建模为马氏决策问题:Markov Decision Problems)的一类有效方法,已经成为近年来机器学习和人工智能领域研究的热点。然而目前大量研究成果仍然针对的是小规模、离散状态空间问题,对许多实际工程中存在的大规模和连续空间优化决策问题往往难以保证算法的收敛性,且存在学习效率不高的缺点。ACD(Adaptive Critic Design)方法作为一种典型的执行器-评价器(Actor-Critic)结构连续空间增强学习方法,由于有效地结合了动态规划思想,被认为是非常具有应用前景的方法。因此,本文重点研究了ACD方法尤其是其中的对偶启发式规划(Dual Heuristic Programming,DHP)方法的原理结构、算法实现、学习控制性能等,并对评价器模块基于神经网络实现的DHP方法进行了多种方式的改进,提升了方法的收敛性能和学习控制性能。本文在国家自然科学基金项目“基于核的增强学习与近似动态规划方法研究”的支持下,主要从三个方面展开研究工作,即:分析研究了ACD学习方法的算法原理和结构组成,主要分析了其中的DHP方法并对其进行了算法实现和性能验证;将递推最小二乘(Recursive Least Squares Temporal Difference,RLS-TD )与DHP相结合,提出RLS-DHP方法并对其收敛性能和泛化性能进行了理论分析和仿真实验验证;提出核DHP方法,通过理论推导、算法结构设计等方式详细分析了核DHP方法的学习控制性能并对其进行了实验验证。在整个研究过程中,取得的主要成果包括:1、首先对ACD方法,主要是其中的DHP方法,在原有理论分析的基础上采用神经网络结构对方法的两个主要模块(Actor模块和Critic模块)进行了设计,并根据公式推导过程选择算法所需的各种函数结构和参数。然后针对具体的Cart-Pole平衡控制问题进行了算法实现,通过变换参数研究了DHP方法在不同条件下的学习控制性能,并采用几种传统控制方法(PID、LQR)实现了对系统的平衡控制。最后结合两类方法的控制结果验证了DHP方法的有效性,证明了学习控制方法相对于传统控制方法具有更为优秀的逼近性能和自适应调整能力。2、针对评价器模块基于神经网络构造的DHP方法中存在着无法保证算法全局收敛性和算法学习效率不高等缺点,本文提出将RLS-TD方法引入DHP方法的评价器模块,优化了权值更新和目标函数逼近过程。文中首先介绍了RLS-TD方法的理论原理,随后给出了将其与DHP方法结合的具体方式,并根据已有的研究成果从理论上分析证明了所提出的RLS-DHP方法可以同时保证两个模块的收敛性,给出了收敛性条件。在理论分析的基础上,进一步将DHP和RLS-DHP两种方法应用到连续搅拌釜式反应器(CSTR)的控制问题中,并针对CSTR控制系统的特点分别设计了两种方法的算法结构,选择了各自相应的逼近函数和训练策略。最后,通过算法的具体实现,对比了采用不同函数逼近器的RLS-DHP方法之间以及DHP方法和各种新方法之间的学习控制性能,分析结果表明改进后方法提高了现有DHP方法的收敛精度和学习控制性能,验证了算法的有效性。3、为了解决RLS-DHP方法在面对高维状态空间和复杂系统时存在的需要大量人工选取特征的问题,提出将核方法与连续空间增强学习方法相结合的思想。首先简要介绍了核方法的理论基础和利用核方法进行自动特征构造的实现方式,进而针对具体的控制问题将核方法引入DHP方法的训练机制中,并利用核方法自动构造基函数的特点优化了RLS-DHP方法的训练过程。最后通过实验结果验证了核DHP方法能进一步减少算法对人类经验知识的依赖,使算法的训练策略更具有一般性,提高了其泛化性能,也为连续空间增强学习方法在多种类型控制问题中的应用推广提供了一种新的思路。在本文的最后一章对下一步研究工作和目前还存在的挑战进行了总结。
|
全文目录
摘要 8-10 ABSTRACT 10-12 第一章 绪论 12-21 1.1 研究背景概述 12-13 1.2 连续空间增强学习的发展现状及趋势 13-18 1.2.1 连续空间增强学习理论及算法的研究现状 13-16 1.2.2 连续空间增强学习方法的实际应用及发展趋势 16-18 1.3 核方法的发展现状及趋势 18-19 1.3.1 核方法的发展现状 18-19 1.3.2 核方法的应用趋势 19 1.4 本文主要研究内容及成果 19-21 第二章 连续空间增强学习理论及其算法实现 21-44 2.1 ACD 方法的理论基础 21-26 2.1.1 Markov 决策问题 21-24 2.1.2 动态规划理论 24-26 2.2 ACD 方法的理论框架与算法原理 26-30 2.2.1 HDP 方法(启发式动态规划) 27-28 2.2.2 DHP 方法(对偶启发式规划) 28-29 2.2.3 GDHP 方法(全局对偶启发式规划) 29-30 2.3 DHP 方法的算法实现及仿真研究 30-43 2.3.1 Cart-Pole 平衡控制的问题描述 30 2.3.2 控制对象的系统建模 30-32 2.3.3 传统控制器设计与仿真 32-34 2.3.4 基于DHP 方法的控制器设计与仿真 34-39 2.3.5 各类方法的控制效果分析 39-43 2.4 小结 43-44 第三章 连续空间增强学习方法的改进及应用研究 44-60 3.1 基于RLS-TD(λ)的连续空间增强学习方法 44-48 3.1.1 基于RLS-TD(λ)的改进DHP 方法 45-47 3.1.2 基于RLS-TD(λ)的改进DHP 方法收敛性分析 47-48 3.2 RLS-DHP 方法的算法实现及仿真研究 48-58 3.2.1 CSTR 问题的模型描述 48-50 3.2.2 CSTR 问题的DHP 学习控制器设计与分析 50-53 3.2.3 RLS-DHP 学习控制器的设计与分析 53-58 3.3 小结 58-60 第四章 基于核的连续空间增强学习方法及应用研究 60-73 4.1 基于核的连续空间增强学习方法研究 60-63 4.1.1 核DHP 方法的理论原理 60-62 4.1.2 核DHP 方法的收敛性分析 62-63 4.2 核DHP 方法的算法实现及仿真研究 63-68 4.2.1 核DHP 学习控制器设计 63-65 4.2.2 学习控制结果及对比分析 65-68 4.3 基于核的Cart-Pole 平衡控制问题研究 68-72 4.3.1 核DHP 学习控制器设计 68-70 4.3.2 学习控制结果及对比分析 70-72 4.4 小结 72-73 第五章 总结和展望 73-76 致谢 76-77 参考文献 77-87 作者在攻读硕士学位期间完成和发表的论文 87-88 附录A 论文相关结构框图 88-90 附录B 缩略词对照表 90
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 调频式电容位移传感器高速测频与非线性校正技术研究,TH822
- 基于多Agent理论的卫星协同定轨技术研究,V474
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 红外超光谱图像的虚拟探测器研究,TP391.41
- 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 视觉伺服四自由度机械臂的研究,TP242.6
- 机械臂视觉伺服系统的研究,TP242.6
- 压电驱动微工作台的控制与校正技术研究,TP273
- 某武器检测装置的控制系统设计,TP183
- 市级旅游用地规划环境影响评价研究,X820.3
- 珠三角地区高性能混凝土配合比智能化系统,TU528
- 大学生综合素质测评研究,G645.5
- 不具备全局Lipschitz条件的时滞细胞神经网络的反周期解研究,TP183
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于核方法的高光谱图像异常检测算法研究,TP751
- 基于神经网络辨识的同步发电机励磁控制研究,TM31
- 基于BP神经网络的水稻干燥智能控制研究,S226.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|