学位论文 > 优秀研究生学位论文题录展示

Q学习在单路口交通信号控制中的应用研究

作　者: 李志强
导　师: 沈文
学　校: 长沙理工大学
专　业: 交通运输规划与管理
关键词: 强化学习 Q学习智能体交通信号控制单路口
分类号: U491.51
类　型: 硕士论文
年　份: 2010年
下　载: 78次
引　用: 1次
阅　读: 论文下载

内容摘要

当前交通拥堵现象在国内外各种城市中频频发生,要解决这种现象,必然要加强交通控制与管理。在城市交通中,单路口信号控制构成了交叉口线控和面控的基础,是国内外研究的热点。本文针对智能体技术应用于交通信号控制方法展开相关研究,主要工作涉及以下几个方面:在充分学习强化学习原理的基础上,主要对利用Q学习算法进行交通信号控制的5个关键问题进行了探讨,并重点解决了利用Q学习算法所需要的状态空间的离散化,同时也构建了基于Q学习的单路口交通信号控制体系。根据Q学习算法的原理,提出了基于各相位绿灯时间变化的三种动作:增加当前相位绿灯时间Δ秒,保持不变,减少当前相位绿灯时间Δ秒。各个相位分别采用三种动作组成的方案,构成状态转化后的控制动作集。采用此控制动作集,基于周期变化与否,分别建立了以车均延误最小为目的的两个奖惩函数,并提出两种不同的Q学习交通信号控制算法:固定周期与可变周期的Q学习算法。对该信号控制算法进行设计后,给出了算法详细步骤。通过Matlab编程,以一个典型4相位控制的单路口作为算例,分别以固定周期与可变周期的Q学习算法进行信号配时,与Webster法进行了对比,验证了单路口利用Q学习进行交通信号控制的算法具有较好的控制效果。本文最后对研究工作进行了总结,指出了今后需进一步深入研究的问题。

全文目录

摘要  5-6
ABSTRACT  6-10
第一章绪论  10-17
  1.1 选题背景  10-11
  1.2 强化学习的研究现状  11-14
    1.2.1 强化学习的理论研究现状  11-13
    1.2.2 强化学习在交通信号控制中的应用  13-14
  1.3 Q 学习算法的特点及存在的问题  14-15
  1.4 研究的目的与意义  15
  1.5 论文的主要研究内容  15-17
第二章强化学习的理论基础  17-27
  2.1 智能体理论  17
    2.1.1 Agent 的概念  17
    2.1.2 Agent 的特征  17
  2.2 强化学习的基本原理  17-19
  2.3 Q 学习算法的基本理论  19-23
    2.3.1 Markov 决策过程模型  19
    2.3.2 期望回报函数  19-20
    2.3.3 状态-动作对的Q 值函数  20-21
    2.3.4 动作选择机制  21-23
    2.3.5 Q 值函数的更新  23
  2.4 强化学习的其他主要算法  23-26
    2.4.1 蒙特卡罗算法  23-24
    2.4.2 瞬时差分学习算法  24-25
    2.4.3 SARSA 学习算法  25
    2.4.4 R 学习算法  25-26
    2.4.5 Dyna 学习算法  26
  2.5 本章小结  26-27
第三章基于 Q 学习的单路口信号控制方法研究  27-38
  3.1 交叉口交通信号控制的相关概念  27-30
  3.2 Q 学习算法进行单路口信号控制关键问题分析  30-33
    3.2.1 单路口状态空间的选择  30-32
    3.2.2 状态转化后所取得的奖励函数的确定  32
    3.2.3 在状态确定后后续动作的确定  32
    3.2.4 如何确定最佳Q 值是否已经获得  32-33
    3.2.5 学习参数的选择  33
  3.3 基于Q 学习的单路口交通信号控制体系  33-35
  3.4 Q 学习交通信号控制算法  35-37
    3.4.1 信号控制动作集  35-36
    3.4.2 算法步骤  36-37
    3.4.3 算法设计  37
  3.5 本章小结  37-38
第四章算例分析  38-54
  4.1 算例介绍  38-39
  4.2 定时信号配时  39-40
  4.3 基于固定周期的Q 学习信号优化配时  40-47
    4.3.1 第1 时间段  41-44
    4.3.2 第2 时间段  44-45
    4.3.3 第3 时间段  45
    4.3.4 第4 时间段  45-46
    4.3.5 第5 时间段  46-47
  4.4 基于可变周期的Q 学习信号优化配时  47-51
    4.4.1 第1 时间段  47-48
    4.4.2 第2 时间段  48-49
    4.4.3 第3 时间段  49-50
    4.4.4 第4 时间段  50-51
    4.4.5 第5 时间段  51
  4.5 Q 学习控制法与WEBSTER 法延误对比  51-53
  4.6 本章小结  53-54
第五章结论与展望  54-55
  5.1 本论文主要结论  54
  5.2 有待进一步研究的问题  54-55
参考文献  55-58
致谢  58-59
附录A（攻读学位期间发表学术论文与科研项目）  59-60
附录B 单路口 Q 学习交通信号控制算法 MATLAB 程序  60-66
  B.1 Q 学习主函数 MATLAB 程序语言  60-64
  B.2 固定周期 Q 学习测试脚本  64-65
  B.3 可变周期 Q 学习测试脚本  65-66

Q学习在单路口交通信号控制中的应用研究

内容摘要

全文目录

相似论文