学位论文 > 优秀研究生学位论文题录展示

Q学习在单路口交通信号控制中的应用研究

作 者: 李志强
导 师: 沈文
学 校: 长沙理工大学
专 业: 交通运输规划与管理
关键词: 强化学习 Q学习 智能体 交通信号控制 单路口
分类号: U491.51
类 型: 硕士论文
年 份: 2010年
下 载: 78次
引 用: 1次
阅 读: 论文下载
 

内容摘要


当前交通拥堵现象在国内外各种城市中频频发生,要解决这种现象,必然要加强交通控制与管理。在城市交通中,单路口信号控制构成了交叉口线控和面控的基础,是国内外研究的热点。本文针对智能体技术应用于交通信号控制方法展开相关研究,主要工作涉及以下几个方面:在充分学习强化学习原理的基础上,主要对利用Q学习算法进行交通信号控制的5个关键问题进行了探讨,并重点解决了利用Q学习算法所需要的状态空间的离散化,同时也构建了基于Q学习的单路口交通信号控制体系。根据Q学习算法的原理,提出了基于各相位绿灯时间变化的三种动作:增加当前相位绿灯时间Δ秒,保持不变,减少当前相位绿灯时间Δ秒。各个相位分别采用三种动作组成的方案,构成状态转化后的控制动作集。采用此控制动作集,基于周期变化与否,分别建立了以车均延误最小为目的的两个奖惩函数,并提出两种不同的Q学习交通信号控制算法:固定周期与可变周期的Q学习算法。对该信号控制算法进行设计后,给出了算法详细步骤。通过Matlab编程,以一个典型4相位控制的单路口作为算例,分别以固定周期与可变周期的Q学习算法进行信号配时,与Webster法进行了对比,验证了单路口利用Q学习进行交通信号控制的算法具有较好的控制效果。本文最后对研究工作进行了总结,指出了今后需进一步深入研究的问题。

全文目录


摘要  5-6
ABSTRACT  6-10
第一章 绪论  10-17
  1.1 选题背景  10-11
  1.2 强化学习的研究现状  11-14
    1.2.1 强化学习的理论研究现状  11-13
    1.2.2 强化学习在交通信号控制中的应用  13-14
  1.3 Q 学习算法的特点及存在的问题  14-15
  1.4 研究的目的与意义  15
  1.5 论文的主要研究内容  15-17
第二章 强化学习的理论基础  17-27
  2.1 智能体理论  17
    2.1.1 Agent 的概念  17
    2.1.2 Agent 的特征  17
  2.2 强化学习的基本原理  17-19
  2.3 Q 学习算法的基本理论  19-23
    2.3.1 Markov 决策过程模型  19
    2.3.2 期望回报函数  19-20
    2.3.3 状态-动作对的Q 值函数  20-21
    2.3.4 动作选择机制  21-23
    2.3.5 Q 值函数的更新  23
  2.4 强化学习的其他主要算法  23-26
    2.4.1 蒙特卡罗算法  23-24
    2.4.2 瞬时差分学习算法  24-25
    2.4.3 SARSA 学习算法  25
    2.4.4 R 学习算法  25-26
    2.4.5 Dyna 学习算法  26
  2.5 本章小结  26-27
第三章 基于 Q 学习的单路口信号控制方法研究  27-38
  3.1 交叉口交通信号控制的相关概念  27-30
  3.2 Q 学习算法进行单路口信号控制关键问题分析  30-33
    3.2.1 单路口状态空间的选择  30-32
    3.2.2 状态转化后所取得的奖励函数的确定  32
    3.2.3 在状态确定后后续动作的确定  32
    3.2.4 如何确定最佳Q 值是否已经获得  32-33
    3.2.5 学习参数的选择  33
  3.3 基于Q 学习的单路口交通信号控制体系  33-35
  3.4 Q 学习交通信号控制算法  35-37
    3.4.1 信号控制动作集  35-36
    3.4.2 算法步骤  36-37
    3.4.3 算法设计  37
  3.5 本章小结  37-38
第四章 算例分析  38-54
  4.1 算例介绍  38-39
  4.2 定时信号配时  39-40
  4.3 基于固定周期的Q 学习信号优化配时  40-47
    4.3.1 第1 时间段  41-44
    4.3.2 第2 时间段  44-45
    4.3.3 第3 时间段  45
    4.3.4 第4 时间段  45-46
    4.3.5 第5 时间段  46-47
  4.4 基于可变周期的Q 学习信号优化配时  47-51
    4.4.1 第1 时间段  47-48
    4.4.2 第2 时间段  48-49
    4.4.3 第3 时间段  49-50
    4.4.4 第4 时间段  50-51
    4.4.5 第5 时间段  51
  4.5 Q 学习控制法与WEBSTER 法延误对比  51-53
  4.6 本章小结  53-54
第五章 结论与展望  54-55
  5.1 本论文主要结论  54
  5.2 有待进一步研究的问题  54-55
参考文献  55-58
致谢  58-59
附录A(攻读学位期间发表学术论文与科研项目)  59-60
附录B 单路口 Q 学习交通信号控制算法 MATLAB 程序  60-66
  B.1 Q 学习主函数 MATLAB 程序语言  60-64
  B.2 固定周期 Q 学习测试脚本  64-65
  B.3 可变周期 Q 学习测试脚本  65-66

相似论文

  1. 基于多Agent理论的卫星协同定轨技术研究,V474
  2. 基于流形学习的高维流场数据分类研究,V231.3
  3. 英语课堂形成性评估与学生学习态度研究,H319.3
  4. 非智力因素对小凉山地区中学生化学学习的影响,H319
  5. 任务型教学在农村初中英语教学中的应用研究,H319
  6. 中职学生数学学习中的非智力因素研究,G633.6
  7. 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
  8. Q学习在基于内容图像检索技术中的应用,TP391.41
  9. 基于多示例学习的用户关注概念区域发现,TP391.41
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 多样性密度学习算法的研究与应用,TP181
  12. 基于过程的协作学习环境设计研究,G434
  13. 美国“写作教室”理论与实践初探,G633.3
  14. 建构主义学习理论指导下的科教电视节目编导策略研究,G222.3
  15. 广州市南沙区农村初中班主任胜任力研究,G635.1
  16. 初中语文小组合作教学探究,G633.3
  17. 高中生物教学中培养学生自主学习能力的尝试,G633.91
  18. 对农村初级中学学生数学学习兴趣的调查与研究,G633.6
  19. 小组合作学习在初中英语教学中的应用,G633.41
  20. 高中男、女生英语词汇学习策略差异及对其英语词汇学习的影响,G633.41
  21. 提高初中生学习化学兴趣的研究,G633.8

中图分类: > 交通运输 > 公路运输 > 交通工程与公路运输技术管理 > 交通工程与交通管理 > 线路交通安全设施 > 交通信号
© 2012 www.xueweilunwen.com