学位论文 > 优秀研究生学位论文题录展示

层次式协同聚类算法及模型选择技术研究

作　者: 王元元
导　师: 叶允明
学　校: 哈尔滨工业大学
专　业: 计算机科学与技术
关键词: 协同聚类信息论多项式混合模型选择
分类号: TP181
类　型: 硕士论文
年　份: 2009年
下　载: 48次
引　用: 0次
阅　读: 论文下载

内容摘要

随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚类,要么只是对词进行聚类,忽略了文档与词之间的相互关系。基于信息论的协同聚类算法ITCC(Information Theoretic Co-clustering algorithm)将文档-词矩阵看作一个联合概率分布,以最小化初始变量和聚类后的变量间的互信息损失为目标函数,同时对文档和词进行聚类。这种方法从信息论的角度捕获了文档和词之间的自然关系,对高维稀疏的文本数据起到很好的聚类效果。本文在分析了协同聚类算法的优缺点的基础上,提出了一些改进方案,并进行了大量的实验分析,完成了以下研究工作:(1)本文提出了层次协同聚类算法HITCC(Hierarchical Information Theoretic Co-clustering),该算法结合了分裂的层次聚类的思想,将每一层的节点分裂都看作一次协同聚类过程,而且在节点分裂时基于父亲节点的协同聚类结果对文档和词同时分裂,然后使用互信息或者卡方检验的方法作为停止条件控制树的增长。此方法不仅能发现存在子空间的簇,而且可以显示簇与簇之间的层次关系,另外也避免了协同聚类算法确定行簇和列簇数目的问题。通过实验证明,HITCC算法可以获得比平面的协同聚类算法更好的聚类效果,而且与当前经典的文本层次聚类算法的效果相当,甚至更好。(2)本文基于HITCC算法又提出了其改进算法——基于模型选择的层次式聚类算法MS-HITCC(Model Selection-HITCC)。该算法在层次树的每一层只是按照协同聚类结果对文档进行分裂,保留父亲节点所有的词。在进入下一层协同聚类前,使用特征选择的方法选择一部分词进行聚类。这样的操作可以在分裂过程中保留重要词的信息,有利于聚类过程的进行。基于此操作,MS-HITCC算法将多项式混合模型应用于层次式协同聚类方法中,并且使用AIC或者BIC的方法进行模型选择,从而避免设置任何参数值,对数据更有普遍适用性。

全文目录

摘要  4-5
Abstract  5-9
第1章绪论  9-18
  1.1 研究背景和意义  9-10
  1.2 国内外相关研究和综述  10-16
    1.2.1 文档聚类算法研究现状  10-11
    1.2.2 层次聚类算法研究现状  11-15
    1.2.3 协同聚类算法研究现状  15-16
  1.3 本文的主要工作及结构安排  16-18
    1.3.1 本文的主要工作  16-17
    1.3.2 本文的结构安排  17-18
第2章协同聚类算法综述  18-24
  2.1 协同聚类算法  18-19
    2.1.1 协同聚类算法思想  18-19
    2.1.2 协同聚类算法与单向聚类算法的区别  19
  2.2 基于信息论的协同聚类算法  19-23
    2.2.1 ITCC算法中的基本概念  19-20
    2.2.2 基于信息论的协同聚类算法的思想  20-22
    2.2.3 算法的不足  22-23
  2.3 本章小结  23-24
第3章层次式协同聚类算法  24-39
  3.1 HITCC算法思想  24
  3.2 算法流程  24-25
  3.3 算法中的关键参数  25-27
  3.4 结果评价方法  27-28
  3.5 实验及结果分析  28-37
    3.5.1 实验数据及实验细节  28-30
    3.5.2 关键参数设置  30-31
    3.5.3 停止标准的对比  31-32
    3.5.4 HITCC与ITCC算法比较  32-34
    3.5.5 HITCC算法与其他层次聚类算法比较  34-37
  3.6 本章小结  37-39
第4章基于模型选择的HITCC算法  39-50
  4.1 分层特征选择  39-40
  4.2 模型选择  40-44
    4.2.1 多项式混合模型的建立  40-42
    4.2.2 AIC和BIC模型选择  42
    4.2.3 多项式混合模型的选择  42-44
  4.3 MS-HITCC算法描述  44-45
  4.4 实验及结果分析  45-50
    4.4.1 实验数据及实验细节  45-47
    4.4.2 改进的HITCC算法与HITCC算法比较  47-48
    4.4.3 MS-HITCC的模型选择算法对比  48-49
    4.4.4 本章小结  49-50
第5章层次式协同聚类系统设计与实现  50-57
  5.1 系统开发目的及意义  50
  5.2 系统总体设计  50-52
  5.3 系统详细设计  52-55
    5.3.1 数据转换模块  52
    5.3.2 数据预处理模块  52-53
    5.3.3 协同聚类模块  53-54
    5.3.4 模型选择模块  54-55
  5.4 本章小结  55-57
结论  57-58
参考文献  58-64
致谢  64

层次式协同聚类算法及模型选择技术研究

内容摘要

全文目录

相似论文