学位论文 > 优秀研究生学位论文题录展示

强化学习在仿真足球机器人决策中的应用研究

作 者: 韦庆丹
导 师: 陈焕文
学 校: 长沙理工大学
专 业: 通信与信息系统
关键词: 强化学习 Sarsa 足球机器人 状态空间 离散化
分类号: TP242
类 型: 硕士论文
年 份: 2011年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


机器人足球作为目前研究的一个热点课题,涉及人工智能、机器人学以及智能控制等多个学科领域。由于实体机器人足球比赛对比赛的硬件设备要求比较高,极大的限制了机器人足球比赛的发展。为了将各种智能算法更好的应用于机器人足球控制上,有必要开发足球机器人比赛的仿真平台。仿真平台所需设备简单,可以单纯从软件平台模拟实体比赛,所以足球机器人仿真比赛已成为足球机器人研究领域的一个重要分支。本文主要工作是将Sarsa学习算法应用于仿真足球机器人决策中,在MSRS 11vs11足球机器人仿真平台上对决策进行验证,并与其它几何学上的算法进行比较。由于仿真比赛的环境状态是一个复杂、连续的状态空间,在应用Sarsa学习算法之前,首先要对连续的状态空间进行离散化,离散化的好坏决定了足球机器人最终学习能否成功;其次是设计好奖赏函数和动作函数,奖赏函数的设计影响到学习算法的收敛性,动作函数直接影响到足球机器人动作的执行,间接影响到学习的效果;最后将两个几何学上的算法应用于仿真平台,记录相关的实验数据,将其与Sarsa学习算法进行比较,验证了Sarsa算法的有效性。

全文目录


摘要  5-6
ABSTRACT  6-10
第一章 绪论  10-15
  1.1 研究背景  10-12
    1.1.1 FIRA 简介  11-12
    1.1.2 RoboCup 简介  12
  1.2 研究的目的与意义  12-13
  1.3 本文研究的主要内容  13-15
第二章 MSRS 11vs11 足球机器人仿真比赛平台  15-26
  2.1 机器人足球系统简介  15-18
    2.1.1 机器人本体子系统  16-17
    2.1.2 视觉子系统  17
    2.1.3 决策子系统  17
    2.1.4 无线通讯子系统  17-18
  2.2 足球机器人仿真平台  18-22
    2.2.1 MSRS 11vs11 仿真平台简介  18-19
    2.2.2 MSRS 仿真平台的结构  19
    2.2.3 MSRS 仿真平台模式  19-22
    2.2.4 比赛场地环境  22
  2.3 MSRS 11vs11 比赛规则介绍  22-26
    2.3.1 比赛时间  22-23
    2.3.2 比赛次序  23
    2.3.3 记分方法  23-24
    2.3.4 点球判罚  24
    2.3.5 门球判罚  24-25
    2.3.6 争球判罚  25-26
第三章 强化学习  26-34
  3.1 强化学习的基本原理和模型  26-28
    3.1.1 基本原理  26-27
    3.1.2 强化学习模型  27-28
    3.1.3 马尔可夫决策过程(MDP)  28
  3.2 强化学习的发展及研究现状  28-29
  3.3 Sarsa 学习算法  29-30
    3.3.1 Sarsa 学习算法简介  29-30
    3.3.2 Sarsa 学习算法的实现  30
  3.4 强化学习的其它典型算法  30-33
    3.4.1 瞬时差分算法TD(Temporal Difference Algorithm)  30-31
    3.4.2 Q-学习算法  31-32
    3.4.3 R-学习算法  32-33
  3.5 强化学习的主要应用  33
  3.6 本章小结  33-34
第四章 基于强化学习的比赛策略的应用研究  34-50
  4.1 仿真足球机器人赛场环境的离散化  34-38
    4.1.1 仿真环境描述  34-35
    4.1.2 仿真环境的离散化  35-38
  4.2 动作函数的设计  38-42
    4.2.1 足球机器人的运动学模型  39-40
    4.2.2 到点动作设计  40-41
    4.2.3 转向目标点动作设计  41
    4.2.4 射门动作设计  41-42
  4.3 奖赏函数的设计  42
  4.4 Q 值的初始化和更新  42
  4.5 Sarsa 学习在比赛决策中的应用  42-44
  4.6 其它射门算法  44-47
    4.6.1 切入圆射门算法  44-45
    4.6.2 动态基准圆射门算法  45-47
  4.7 仿真实验及结果分析  47-50
    4.7.1 仿真实验结果和分析  47-49
    4.7.2 本算法与其它算法的比较  49-50
第五章 结论与展望  50-51
参考文献  51-54
致谢  54-55
附录:(攻读硕士学位期间发表论文目录)  55-56
摘要  56-59
Abstract  59-61

相似论文

  1. 谐波齿轮传动柔轮应力及轮齿磨损分析,TH132.43
  2. 一类孤子方程的可积离散化,O175.2
  3. 复杂动态环境下的小型足球机器人路径规划研究,TP242
  4. 结构约束下的动态PET图像重建研究,TP391.41
  5. 超声弹性成像中的位移和应变估计,TP391.41
  6. 机器人系统路径规划的研究,TP242
  7. 共沸混合物分离过程综合,TQ028
  8. 软件体系结构自适应模型及其智能化研究,TP311.52
  9. 基于改进的ID3算法的蛋白质纯化方法研究,Q51
  10. 基于鲁棒动态逆的小灵巧炸弹控制器设计,TJ414
  11. 基于RVM-PF的卫星关键部件寿命预测,V423.42
  12. 中国卫生总费用影响因素与预测方法学研究,R197.1
  13. 基于模型的动态分层强化学习算法研究,TP181
  14. RoboCup中型组机器人决策系统关键技术研究,TP242
  15. 基于强化学习的机器人足球仿真系统研究与程序设计,TP242
  16. 基于改进RRT与人工势场混合算法的足球机器人路径规划研究,TP242
  17. 基于博弈论的足球机器人对抗策略与协调合作,TP242
  18. 基于粗糙集的网络安全评估模型研究与实现,TP393.08
  19. 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
  20. 炼铁生产流程的分散协调优化方法研究,TF58
  21. 配电网静止同步补偿器控制策略的研究与实现,TM761

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 机器人技术 > 机器人
© 2012 www.xueweilunwen.com