学位论文 > 优秀研究生学位论文题录展示

不确定环境下的序列决策问题研究

作 者: 周浩浩
导 师: 邓苏;黄宏斌
学 校: 国防科学技术大学
专 业: 管理科学与工程
关键词: 部分可观测马尔科夫 马尔科夫决策过程 序列决策 不确定性
分类号: C934
类 型: 硕士论文
年 份: 2011年
下 载: 118次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算技术、嵌入式技术、传感器技术、通信技术以及自动控制技术的飞速发展,新一代智能系统也悄然出现。新一代智能系统的主要特点在于信息世界与物理世界的交互更为深入。新一代智能系统具有广泛的应用背景,可用于智慧城市、智慧交通、国防军事、健康监护、环境监控等领域,受到越来越多研究者的关注。本文主要研究智能系统中以机器人控制与决策为背景的序列决策问题。环境的不确定性是新一代智能系统的主要特点之一,系统的复杂性和不确定性决定了系统中的节点决策必然面临着信息不一致、信息局部可观测及分布式的问题。对于系统的决策节点来说,如何在这种环境下根据有限的信息在适当的时候做出合适的决策是其决策和规划的首要问题。马尔科夫决策理论为不确定性环境下的决策提供了坚实的数学基础和模型表示方法。论文在分析了马尔科夫决策的国内外研究现状的基础上针对当前模型求解算法中所存在的缺点和不足,提出了ESVI算法和IGA算法。首先针对POMDP模型的求解提出了基于遗传策略的求解POMDP的值迭代算法(Evolution Strategy Based Value Iteration,简称ESVI ),算法在随机迭代过程的基础上通过构造一个效用矩阵来决定在某个信念状态点上所要采取的最优行动,在确定最优行动之后采用贝叶斯法则对信念状态更新。随机迭代过程采用遗传策略选取最优种群,并根据所选取的最优种群对效用矩阵更新。算法的最后对Tag问题和Hallway2问题进行了求解,实验表明ESVI在解决较大规模的POMDP问题时能够迅速收敛到较好的收益值而获得近似最优的行动策略。针对DEC-POMDP模型的求解提出了改进的遗传算法(IGA),算法在对状态集分析的基础上,引入最佳收益态和最佳起始态,并将策略的求解分为两部分:初始状态到最佳起始态的策略和最佳收益态之间的转换策略,两部分策略的分开求解减小了算法的复杂度。前一阶段的目的在于使决策节点到达最佳收益状态,其实质上是剪除了行动序列中存在的部分无效行动。两个阶段的策略求解都使用遗传算法,但在遗传操作和适应度函数的定义方面又有所不同。算法对方格相遇问题和多入口广播通道问题进行了求解,通过实验可以看出IGA压缩了要搜索的策略空间,减小了编码长度,是求解DEC-POMDP的有效的近似算法。

全文目录


相似论文

  1. 小型望远镜防抖系统的设计与工程实现,TH743
  2. 离散切换系统稳定性分析及控制器设计,TP13
  3. 不确定性和元小说:《马赛克人》的后现代主义特点研究,I712.074
  4. 基于不确定性灾害因素的深井合理经济开采深度分析,TD823
  5. 笛卡尔对确定性的追求,B565.21
  6. 不确定时滞广义双线性系统的鲁棒控制研究,TP13
  7. 电动汽车产品定价问题研究,F407.471
  8. 架空线路全寿命周期成本估算,F406.72;F224
  9. 聚类分析与分类分析在轨道交通系统中的应用,U239.5
  10. 南方针叶林遥感信息提取研究,TP79
  11. 兔鸭之谜,I046
  12. 基于满意度最优化的项目选择模型分析,C934
  13. 中国创业板市场股票首次公开发行溢价研究,F832.51
  14. 多渠道二手市场下的消费者退货政策,F274;F721
  15. 贝叶斯分类及其在入侵检测中的应用研究,TP393.08
  16. 时滞不确定切换系统的鲁棒控制,TP13
  17. 不确定时滞系统的稳定性分析及鲁棒H∞控制,TP13
  18. 欠驱动垂直起降无人飞行器的非线性控制研究,V279
  19. MAC改性沥青SMA在高等级公路罩面中的应用研究,U416.217
  20. 区间系数数学规划问题及算法研究,O221

中图分类: > 社会科学总论 > 管理学 > 决策学
© 2012 www.xueweilunwen.com