学位论文 > 优秀研究生学位论文题录展示
层次式协同聚类算法及模型选择技术研究
作 者: 王元元
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 协同聚类 信息论 多项式混合 模型选择
分类号: TP181
类 型: 硕士论文
年 份: 2009年
下 载: 48次
引 用: 0次
阅 读: 论文下载
内容摘要
随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚类,要么只是对词进行聚类,忽略了文档与词之间的相互关系。基于信息论的协同聚类算法ITCC(Information Theoretic Co-clustering algorithm)将文档-词矩阵看作一个联合概率分布,以最小化初始变量和聚类后的变量间的互信息损失为目标函数,同时对文档和词进行聚类。这种方法从信息论的角度捕获了文档和词之间的自然关系,对高维稀疏的文本数据起到很好的聚类效果。本文在分析了协同聚类算法的优缺点的基础上,提出了一些改进方案,并进行了大量的实验分析,完成了以下研究工作:(1)本文提出了层次协同聚类算法HITCC(Hierarchical Information Theoretic Co-clustering),该算法结合了分裂的层次聚类的思想,将每一层的节点分裂都看作一次协同聚类过程,而且在节点分裂时基于父亲节点的协同聚类结果对文档和词同时分裂,然后使用互信息或者卡方检验的方法作为停止条件控制树的增长。此方法不仅能发现存在子空间的簇,而且可以显示簇与簇之间的层次关系,另外也避免了协同聚类算法确定行簇和列簇数目的问题。通过实验证明,HITCC算法可以获得比平面的协同聚类算法更好的聚类效果,而且与当前经典的文本层次聚类算法的效果相当,甚至更好。(2)本文基于HITCC算法又提出了其改进算法——基于模型选择的层次式聚类算法MS-HITCC(Model Selection-HITCC)。该算法在层次树的每一层只是按照协同聚类结果对文档进行分裂,保留父亲节点所有的词。在进入下一层协同聚类前,使用特征选择的方法选择一部分词进行聚类。这样的操作可以在分裂过程中保留重要词的信息,有利于聚类过程的进行。基于此操作,MS-HITCC算法将多项式混合模型应用于层次式协同聚类方法中,并且使用AIC或者BIC的方法进行模型选择,从而避免设置任何参数值,对数据更有普遍适用性。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-18 1.1 研究背景和意义 9-10 1.2 国内外相关研究和综述 10-16 1.2.1 文档聚类算法研究现状 10-11 1.2.2 层次聚类算法研究现状 11-15 1.2.3 协同聚类算法研究现状 15-16 1.3 本文的主要工作及结构安排 16-18 1.3.1 本文的主要工作 16-17 1.3.2 本文的结构安排 17-18 第2章 协同聚类算法综述 18-24 2.1 协同聚类算法 18-19 2.1.1 协同聚类算法思想 18-19 2.1.2 协同聚类算法与单向聚类算法的区别 19 2.2 基于信息论的协同聚类算法 19-23 2.2.1 ITCC算法中的基本概念 19-20 2.2.2 基于信息论的协同聚类算法的思想 20-22 2.2.3 算法的不足 22-23 2.3 本章小结 23-24 第3章 层次式协同聚类算法 24-39 3.1 HITCC算法思想 24 3.2 算法流程 24-25 3.3 算法中的关键参数 25-27 3.4 结果评价方法 27-28 3.5 实验及结果分析 28-37 3.5.1 实验数据及实验细节 28-30 3.5.2 关键参数设置 30-31 3.5.3 停止标准的对比 31-32 3.5.4 HITCC与ITCC算法比较 32-34 3.5.5 HITCC算法与其他层次聚类算法比较 34-37 3.6 本章小结 37-39 第4章 基于模型选择的HITCC算法 39-50 4.1 分层特征选择 39-40 4.2 模型选择 40-44 4.2.1 多项式混合模型的建立 40-42 4.2.2 AIC和BIC模型选择 42 4.2.3 多项式混合模型的选择 42-44 4.3 MS-HITCC算法描述 44-45 4.4 实验及结果分析 45-50 4.4.1 实验数据及实验细节 45-47 4.4.2 改进的HITCC算法与HITCC算法比较 47-48 4.4.3 MS-HITCC的模型选择算法对比 48-49 4.4.4 本章小结 49-50 第5章 层次式协同聚类系统设计与实现 50-57 5.1 系统开发目的及意义 50 5.2 系统总体设计 50-52 5.3 系统详细设计 52-55 5.3.1 数据转换模块 52 5.3.2 数据预处理模块 52-53 5.3.3 协同聚类模块 53-54 5.3.4 模型选择模块 54-55 5.4 本章小结 55-57 结论 57-58 参考文献 58-64 致谢 64
|
相似论文
- 趋向自然:唯信息论世界观下的生态工业系统演化,X321
- 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
- 随机网络模型分离,O157.5
- 基于信息论的特征加权和主题驱动协同聚类算法研究,TP18
- 模型选择:推广的拉格朗日乘子法,O212.1
- Web数据挖掘在电子商务中的应用研究,TP393.09
- 基于支持向量回归机的盲均衡算法的研究,TN911.5
- 基于LDA模型的文本分类研究,TP391.1
- 组合预测中单项模型选择研究及其权重系数优化,O211.67
- 阵列信号处理中的信源数估计算法研究,TN911.23
- 基于多源数据融合的蛋白质—蛋白质相互作用网络构建方法研究,Q51
- 基于特征匹配与分箱技术的分布式网络入侵协同检测系统研究及实现,TP393.08
- 基于属性间相关性分析的属性选择方法研究,TP311.13
- 从系统观看技术创新中的知识管理,G302
- 《强盗新娘》中非真实性话语的语用研究,H313
- 功能翻译理论视角下同声传译中冗余信息的处理,H059
- 基于CFD离心泵数值模拟及性能优化,TH311
- 贝叶斯网络结构学习算法研究,TP311.13
- 通讯约束下量化估计系统的设计与分析,TP273
- 对信源信道联合编码的研究,TN911
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|