学位论文 > 优秀研究生学位论文题录展示
基于隐马尔可夫模型的时间序列聚类的研究
作 者: 姚世通
导 师: 苑波
学 校: 上海交通大学
专 业: 计算机应用技术
关键词: 隐马尔可夫模型(HMM) Kullback-Leibler Diver-gence(KLD) 谱聚类 特征向量分解
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 265次
引 用: 0次
阅 读: 论文下载
内容摘要
隐马尔可夫模型(Hidden Markov Model,HMM)是一种概率模型,它假定观测序列是由包含若干隐状态的马尔可夫过程产生的。HMM在语音、手写体、运动轨迹识别和生物信息学等领域有着广泛的应用。基于该模型的时间序列数据聚类算法有两个显著的优点:1)适用于不等序列长度甚至缺失某一时刻观测值的时间序列。2)能够利用时间序列隐含的属性(马尔可夫性)来提高聚类精度。近年来,基于HMM的聚类算法的研究大部分是基于实际应用,而对其准确性和健壮性的研究较有限。本文提出一种基于概率模型的聚类算法——通过计算时间序列在不同HMM参数下的后验概率分布的Kullback-LeiblerDivergence(KLD)来构建相似度矩阵,并将该矩阵用作谱聚类算法的输入。与大部分现有的基于HMM的聚类算法不同,本文采用KLD来度量时间序列对之间的相似度。KLD作用于整个模型参数空间,更充分地利用了概率模型中的信息。在人工和实际数据集上的实验结果表明,该算法在同等条件下相比基于其他距离度量(如互匹配值)的算法具有更高的聚类精度。另一方面,谱聚类算法通过特征向量分解能有效去除时间序列数据中噪声的影响,该算法相比传统聚类算法(如K-Means),在加入内源性噪声和外源性噪声的人工数据上表现出更好的健壮性。本文的主要贡献包括:(1)研究了距离度量函数以及特征向量分解对聚类精度的影响。以往基于HMM的算法大部分采用互匹配值、BP距离等来度量时间序列间的距离,这些度量函数虽然具有一定的合理性,但是它们只利用了特定时间序列对之间的概率信息,而没有考虑全局概率空间。这种度量的局部性会导致最终聚类准确度的降低。另外,当附加在时间序列数据上的噪声等级上升时,传统的聚类算法,如K-Means、层次聚类等的准确性将明显下降。本文通过引入KLD和谱聚类有效解决了上述两个问题。(2)研究了隐状态数对聚类精度的影响。在HMM的应用中,隐状态数通常是预先设定的。虽然对于某些马尔可夫过程,隐状态有明确的意义(如语音识别中通常认为隐状态表示音节),但是对于更多的时间序列数据,很难赋予隐状态物理意义。本文对不同隐状态数目下的聚类精度做了研究,发现聚类精度随隐状态数不单调地变化,当模型过度拟合时,聚类精度反而会下降。并且,模型的训练时间将随隐状态数的增加而平方级增加。(3)研究了学习聚类数目的方法。通常聚类的类别数是预先设定的。但是在实际应用中,数据集的类别数往往无法预知,这就需要一种衡量聚类质量的标准来选出最优聚类数。本文采用α值来衡量聚类质量,这种度量不仅能使类内相似度最大,而且可以防止极少数样本点划分为一类的现象。实验结果表明,这种度量方法能找到正确的聚类数。
|
全文目录
摘要 3-5 ABSTRACT 5-10 表格索引 10-11 插图索引 11-12 主要符号对照表 12-13 第一章 绪论 13-25 1.1 研究背景与意义 13-15 1.2 时间序列数据聚类 15-18 1.2.1 基于原始数据的聚类 16 1.2.2 基于特征的聚类 16-17 1.2.3 基于模型的聚类 17-18 1.3 其他背景知识 18-22 1.3.1 随机过程 18-19 1.3.2 马尔可夫过程 19-22 1.4 本文概述 22-25 1.4.1 本文的研究目标与方法 22 1.4.2 本文的主要成果 22-24 1.4.3 本文结构 24-25 第二章 HMM 模型 25-39 2.1 HMM 的发展背景 25 2.2 HMM 的基本原理 25-27 2.3 HMM 的类型 27-30 2.4 HMM 的基本问题及其算法 30-37 2.4.1 评估问题和Forward-Backwark 算法 30-33 2.4.2 解码问题和Viterbi 算法 33-35 2.4.3 学习问题和Baum-Welch 算法 35-37 2.5 本章小结 37-39 第三章 谱聚类算法 39-49 3.1 背景 39 3.2 拉普拉斯图 39-45 3.2.1 图模型表示 40-41 3.2.2 谱图理论 41-45 3.3 算法描述 45-48 3.4 本章小结 48-49 第四章 基于HMM 的时间序列聚类算法 49-71 4.1 相似性度量 50-54 4.2 聚类结果评估 54-56 4.3 算法框架描述 56-57 4.4 实验结果分析 57-70 4.4.1 人工数据 59-64 4.4.2 实际数据 64-70 4.5 本章小结 70-71 第五章 总结与展望 71-75 5.1 结论 71-72 5.2 研究展望 72-75 附录 A HMM 数值计算问题 75-79 参考文献 79-87 致谢 87-88 攻读学位期间发表的学术论文目录 88-91 附件 91-92
|
相似论文
- 基于图分割的文本提取方法研究,TP391.41
- 面向嵌入式软件故障定位的程序谱方法研究,TP311.52
- 大规模机器学习:矩阵低秩近似与在线学习,TP181
- 利用同工酶技术对109个甘薯品种的遗传多样性分析,S531
- 基于语音识别的IPCC交互式语音应答系统的研究与实现,TN912.34
- 基于多线索融合的互联网图像搜索引擎关键技术研究,TP391.3
- 语音识别算法及其在嵌入式中的应用,TN912.34
- 谱聚类在离群数据挖掘中的应用研究,TP311.13
- 谱聚类研究及其在入侵检测中的应用,TP393.08
- 基于基因芯片数据的基因调控网络的重构及其疾病学应用,TP18
- 基于谱聚类的图书目录重构,TP391.1
- 基于Nystr(?)m扩展的大规模谱聚类算法,TP311.13
- 遗传连锁群中分子标记排序研究,TP18
- 面向智能视频监控的事件检测建模及优化,TP391.41
- 数据挖掘中的谱聚类算法研究,TP311.13
- 基于组群挖掘的服务发现推荐方法,TP393.09
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 基于分形理论的中国股市预警机制研究,F832.51
- 面向机器人对话的语音识别关键技术的研究,TN912.34
- 改进的谱聚类图像分割方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|