学位论文 > 优秀研究生学位论文题录展示

强化学习在仿真足球机器人决策中的应用研究

作　者: 韦庆丹
导　师: 陈焕文
学　校: 长沙理工大学
专　业: 通信与信息系统
关键词: 强化学习 Sarsa 足球机器人状态空间离散化
分类号: TP242
类　型: 硕士论文
年　份: 2011年
下　载: 14次
引　用: 0次
阅　读: 论文下载

内容摘要

机器人足球作为目前研究的一个热点课题,涉及人工智能、机器人学以及智能控制等多个学科领域。由于实体机器人足球比赛对比赛的硬件设备要求比较高,极大的限制了机器人足球比赛的发展。为了将各种智能算法更好的应用于机器人足球控制上,有必要开发足球机器人比赛的仿真平台。仿真平台所需设备简单,可以单纯从软件平台模拟实体比赛,所以足球机器人仿真比赛已成为足球机器人研究领域的一个重要分支。本文主要工作是将Sarsa学习算法应用于仿真足球机器人决策中,在MSRS 11vs11足球机器人仿真平台上对决策进行验证,并与其它几何学上的算法进行比较。由于仿真比赛的环境状态是一个复杂、连续的状态空间,在应用Sarsa学习算法之前,首先要对连续的状态空间进行离散化,离散化的好坏决定了足球机器人最终学习能否成功;其次是设计好奖赏函数和动作函数,奖赏函数的设计影响到学习算法的收敛性,动作函数直接影响到足球机器人动作的执行,间接影响到学习的效果;最后将两个几何学上的算法应用于仿真平台,记录相关的实验数据,将其与Sarsa学习算法进行比较,验证了Sarsa算法的有效性。

全文目录

摘要  5-6
ABSTRACT  6-10
第一章绪论  10-15
  1.1 研究背景  10-12
    1.1.1 FIRA 简介  11-12
    1.1.2 RoboCup 简介  12
  1.2 研究的目的与意义  12-13
  1.3 本文研究的主要内容  13-15
第二章 MSRS 11vs11 足球机器人仿真比赛平台  15-26
  2.1 机器人足球系统简介  15-18
    2.1.1 机器人本体子系统  16-17
    2.1.2 视觉子系统  17
    2.1.3 决策子系统  17
    2.1.4 无线通讯子系统  17-18
  2.2 足球机器人仿真平台  18-22
    2.2.1 MSRS 11vs11 仿真平台简介  18-19
    2.2.2 MSRS 仿真平台的结构  19
    2.2.3 MSRS 仿真平台模式  19-22
    2.2.4 比赛场地环境  22
  2.3 MSRS 11vs11 比赛规则介绍  22-26
    2.3.1 比赛时间  22-23
    2.3.2 比赛次序  23
    2.3.3 记分方法  23-24
    2.3.4 点球判罚  24
    2.3.5 门球判罚  24-25
    2.3.6 争球判罚  25-26
第三章强化学习  26-34
  3.1 强化学习的基本原理和模型  26-28
    3.1.1 基本原理  26-27
    3.1.2 强化学习模型  27-28
    3.1.3 马尔可夫决策过程（MDP）  28
  3.2 强化学习的发展及研究现状  28-29
  3.3 Sarsa 学习算法  29-30
    3.3.1 Sarsa 学习算法简介  29-30
    3.3.2 Sarsa 学习算法的实现  30
  3.4 强化学习的其它典型算法  30-33
    3.4.1 瞬时差分算法TD（Temporal Difference Algorithm）  30-31
    3.4.2 Q-学习算法  31-32
    3.4.3 R-学习算法  32-33
  3.5 强化学习的主要应用  33
  3.6 本章小结  33-34
第四章基于强化学习的比赛策略的应用研究  34-50
  4.1 仿真足球机器人赛场环境的离散化  34-38
    4.1.1 仿真环境描述  34-35
    4.1.2 仿真环境的离散化  35-38
  4.2 动作函数的设计  38-42
    4.2.1 足球机器人的运动学模型  39-40
    4.2.2 到点动作设计  40-41
    4.2.3 转向目标点动作设计  41
    4.2.4 射门动作设计  41-42
  4.3 奖赏函数的设计  42
  4.4 Q 值的初始化和更新  42
  4.5 Sarsa 学习在比赛决策中的应用  42-44
  4.6 其它射门算法  44-47
    4.6.1 切入圆射门算法  44-45
    4.6.2 动态基准圆射门算法  45-47
  4.7 仿真实验及结果分析  47-50
    4.7.1 仿真实验结果和分析  47-49
    4.7.2 本算法与其它算法的比较  49-50
第五章结论与展望  50-51
参考文献  51-54
致谢  54-55
附录:(攻读硕士学位期间发表论文目录)  55-56
摘要  56-59
Abstract  59-61

强化学习在仿真足球机器人决策中的应用研究

内容摘要

全文目录

相似论文