学位论文 > 优秀研究生学位论文题录展示
Q学习在单路口交通信号控制中的应用研究
作 者: 李志强
导 师: 沈文
学 校: 长沙理工大学
专 业: 交通运输规划与管理
关键词: 强化学习 Q学习 智能体 交通信号控制 单路口
分类号: U491.51
类 型: 硕士论文
年 份: 2010年
下 载: 78次
引 用: 1次
阅 读: 论文下载
内容摘要
当前交通拥堵现象在国内外各种城市中频频发生,要解决这种现象,必然要加强交通控制与管理。在城市交通中,单路口信号控制构成了交叉口线控和面控的基础,是国内外研究的热点。本文针对智能体技术应用于交通信号控制方法展开相关研究,主要工作涉及以下几个方面:在充分学习强化学习原理的基础上,主要对利用Q学习算法进行交通信号控制的5个关键问题进行了探讨,并重点解决了利用Q学习算法所需要的状态空间的离散化,同时也构建了基于Q学习的单路口交通信号控制体系。根据Q学习算法的原理,提出了基于各相位绿灯时间变化的三种动作:增加当前相位绿灯时间Δ秒,保持不变,减少当前相位绿灯时间Δ秒。各个相位分别采用三种动作组成的方案,构成状态转化后的控制动作集。采用此控制动作集,基于周期变化与否,分别建立了以车均延误最小为目的的两个奖惩函数,并提出两种不同的Q学习交通信号控制算法:固定周期与可变周期的Q学习算法。对该信号控制算法进行设计后,给出了算法详细步骤。通过Matlab编程,以一个典型4相位控制的单路口作为算例,分别以固定周期与可变周期的Q学习算法进行信号配时,与Webster法进行了对比,验证了单路口利用Q学习进行交通信号控制的算法具有较好的控制效果。本文最后对研究工作进行了总结,指出了今后需进一步深入研究的问题。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-17 1.1 选题背景 10-11 1.2 强化学习的研究现状 11-14 1.2.1 强化学习的理论研究现状 11-13 1.2.2 强化学习在交通信号控制中的应用 13-14 1.3 Q 学习算法的特点及存在的问题 14-15 1.4 研究的目的与意义 15 1.5 论文的主要研究内容 15-17 第二章 强化学习的理论基础 17-27 2.1 智能体理论 17 2.1.1 Agent 的概念 17 2.1.2 Agent 的特征 17 2.2 强化学习的基本原理 17-19 2.3 Q 学习算法的基本理论 19-23 2.3.1 Markov 决策过程模型 19 2.3.2 期望回报函数 19-20 2.3.3 状态-动作对的Q 值函数 20-21 2.3.4 动作选择机制 21-23 2.3.5 Q 值函数的更新 23 2.4 强化学习的其他主要算法 23-26 2.4.1 蒙特卡罗算法 23-24 2.4.2 瞬时差分学习算法 24-25 2.4.3 SARSA 学习算法 25 2.4.4 R 学习算法 25-26 2.4.5 Dyna 学习算法 26 2.5 本章小结 26-27 第三章 基于 Q 学习的单路口信号控制方法研究 27-38 3.1 交叉口交通信号控制的相关概念 27-30 3.2 Q 学习算法进行单路口信号控制关键问题分析 30-33 3.2.1 单路口状态空间的选择 30-32 3.2.2 状态转化后所取得的奖励函数的确定 32 3.2.3 在状态确定后后续动作的确定 32 3.2.4 如何确定最佳Q 值是否已经获得 32-33 3.2.5 学习参数的选择 33 3.3 基于Q 学习的单路口交通信号控制体系 33-35 3.4 Q 学习交通信号控制算法 35-37 3.4.1 信号控制动作集 35-36 3.4.2 算法步骤 36-37 3.4.3 算法设计 37 3.5 本章小结 37-38 第四章 算例分析 38-54 4.1 算例介绍 38-39 4.2 定时信号配时 39-40 4.3 基于固定周期的Q 学习信号优化配时 40-47 4.3.1 第1 时间段 41-44 4.3.2 第2 时间段 44-45 4.3.3 第3 时间段 45 4.3.4 第4 时间段 45-46 4.3.5 第5 时间段 46-47 4.4 基于可变周期的Q 学习信号优化配时 47-51 4.4.1 第1 时间段 47-48 4.4.2 第2 时间段 48-49 4.4.3 第3 时间段 49-50 4.4.4 第4 时间段 50-51 4.4.5 第5 时间段 51 4.5 Q 学习控制法与WEBSTER 法延误对比 51-53 4.6 本章小结 53-54 第五章 结论与展望 54-55 5.1 本论文主要结论 54 5.2 有待进一步研究的问题 54-55 参考文献 55-58 致谢 58-59 附录A(攻读学位期间发表学术论文与科研项目) 59-60 附录B 单路口 Q 学习交通信号控制算法 MATLAB 程序 60-66 B.1 Q 学习主函数 MATLAB 程序语言 60-64 B.2 固定周期 Q 学习测试脚本 64-65 B.3 可变周期 Q 学习测试脚本 65-66
|
相似论文
- 基于多Agent理论的卫星协同定轨技术研究,V474
- 基于流形学习的高维流场数据分类研究,V231.3
- 英语课堂形成性评估与学生学习态度研究,H319.3
- 非智力因素对小凉山地区中学生化学学习的影响,H319
- 任务型教学在农村初中英语教学中的应用研究,H319
- 中职学生数学学习中的非智力因素研究,G633.6
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多样性密度学习算法的研究与应用,TP181
- 基于过程的协作学习环境设计研究,G434
- 美国“写作教室”理论与实践初探,G633.3
- 建构主义学习理论指导下的科教电视节目编导策略研究,G222.3
- 广州市南沙区农村初中班主任胜任力研究,G635.1
- 初中语文小组合作教学探究,G633.3
- 高中生物教学中培养学生自主学习能力的尝试,G633.91
- 对农村初级中学学生数学学习兴趣的调查与研究,G633.6
- 小组合作学习在初中英语教学中的应用,G633.41
- 高中男、女生英语词汇学习策略差异及对其英语词汇学习的影响,G633.41
- 提高初中生学习化学兴趣的研究,G633.8
中图分类: > 交通运输 > 公路运输 > 交通工程与公路运输技术管理 > 交通工程与交通管理 > 线路交通安全设施 > 交通信号
© 2012 www.xueweilunwen.com
|