学位论文 > 优秀研究生学位论文题录展示

基于信息论的特征加权和主题驱动协同聚类算法研究

作 者: 吴彪
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 协同聚类 信息论 主题驱动 特征加权 维基百科
分类号: TP18
类 型: 硕士论文
年 份: 2008年
下 载: 50次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本数据常用文档-词二维共现矩阵表示,大多数传统聚类算法属于单向聚类,即要么是对样本进行聚类,要么是对特征进行聚类,没有考虑到样本和特征之间自然存在的相互关系。尤其对高维、稀疏、带噪声数据,传统单向聚类方法在精度上很难满足实际需求。基于信息论协同聚类算法从信息论的角度捕获了行列之间自然关系,同时从行向和列向进行聚类,相互协助、相互约束,对高维、稀疏数据也能起到高效聚类的效果。但该方法也存在一些不足,如没有考虑特征的重要性,另外该方法是一个无监督的学习过程,聚类后簇的可解释性不强,在聚类精度上也有提高的空间等。本文在基于信息论的协同聚类算法以及参考已有研究方法的基础上,做了两点探索性改进,即在原有无监督聚类的基础上,引入了主题知识,并对特征进行了加权处理。提出了无监督的特征加权的协同聚类算法和半监督的主题驱动的协同聚类算法两个改进算法。特征加权协同聚类算法用互信息计算特征权值,突出有效特征的重要性,在聚类精度和运行时间上得到了提高。在主题驱动的协同聚类算法中,首先建立了一个基于维基百科和开放分类目录的主题语料库,该语料库中定义了每个主题的描述和层次;然后通过协同聚类的方法将主题知识传播到文本聚类过程中,我们的目标是将相同主题下的文档聚在一起。通过实验证明,在聚类精度上我们提出的两个改进算法能得了更好的聚类结果。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-19
  1.1 研究背景和意义  9-11
  1.2 国内外相关研究和综述  11-16
    1.2.1 聚类算法研究现状  11-13
    1.2.2 Co-Clustering 算法研究现状  13-15
    1.2.3 主题驱动文本聚类算法研究现状  15-16
  1.3 研究问题的定义  16-18
  1.4 本文的结构安排  18-19
第2章 Co-clustering 算法综述  19-29
  2.1 引言  19
  2.2 Co-clustering 算法  19-22
    2.2.1 Co-clustering 算法思想  20-21
    2.2.2 Co-clustering 与单向聚类算法的区别  21-22
    2.2.3 Co-clustering 算法应用  22
  2.3 基于信息论的 Co-clustering 算法  22-27
    2.3.1 ITCC 算法中的几个基本概念  22-23
    2.3.2 ITCC 算法思想  23-25
    2.3.3 ITCC 算法流程  25-26
    2.3.4 ITCC 算法时间复杂度分析  26
    2.3.5 ITCC 算法目标函数的收敛性分析  26-27
    2.3.6 ITCC 算法的不足  27
  2.4 本章小结  27-29
第3章 基于信息论的特征加权 协同聚类算法  29-45
  3.1 特征加权的理论基础  29-30
  3.2 模拟实验  30-34
    3.2.1 噪声定义及处理方法分析  30
    3.2.2 模拟数据生成方法  30-31
    3.2.3 特征权重计算  31
    3.2.4 特征加权的协同聚类算法模拟实验  31-34
  3.3 文本表示及特征选择  34-37
    3.3.1 文本表示  34-35
    3.3.2 特征选择  35
    3.3.3 特征权重计算  35-37
  3.4 特征加权的 Co-clustering 算法  37-39
    3.4.1 算法描述  37-38
    3.4.2 算法分析  38-39
  3.5 实验与分析  39-44
    3.5.1 数据描述  39
    3.5.2 实验实现细节  39-40
    3.5.3 实验结果及分析  40-44
  3.6 本章小结  44-45
第4章 基于信息论的主题驱动 协同聚类算法  45-61
  4.1 主题驱动的 Co-clustering 算法的理论基础  45-46
  4.2 主题模型定义  46-53
    4.2.1 主题信息来源  46-48
    4.2.2 Wikipedia 页面的信息特征  48-49
    4.2.3 主题信息层次语义模型定义  49-51
    4.2.4 主题信息特征模型定义  51-53
  4.3 主题驱动的 Co-clustering 算法  53-56
    4.3.1 算法描述  54-55
    4.3.2 算法分析  55-56
  4.4 实验与分析  56-59
    4.4.1 数据描述  56
    4.4.2 实验结果及分析  56-59
  4.5 本章小结  59-61
第5章 算法设计与实现  61-71
  5.1 系统的基本目标  61
  5.2 系统总体设计  61-62
  5.3 系统详细设计  62-70
    5.3.1 数据转换模块  62-63
    5.3.2 主题模型构建模块  63-67
    5.3.3 数据预处理模块  67-68
    5.3.4 聚类引擎模块  68-70
  5.4 本章小结  70-71
结论  71-73
参考文献  73-79
致谢  79-80
个人简历  80

相似论文

  1. 趋向自然:唯信息论世界观下的生态工业系统演化,X321
  2. 基于维基百科的命名实体消歧研究,TP391.1
  3. 通讯约束下量化估计系统的设计与分析,TP273
  4. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  5. 基于语义分析的文本挖掘研究,TP391.1
  6. 基于维基百科的语义比较,TP391.1
  7. 有监督的模糊聚类算法研究,TP18
  8. 支持向量机在入侵检测系统中的研究和应用,TP393.08
  9. 维基百科的网络结构及可信分析,TP393.02
  10. 基于LS-SVM的入侵检测,TP393.08
  11. 基于特征分析的支持向量分类机,TP311.13
  12. 面向G2C交互平台的Web文本挖掘模型和方法研究,TP391.1
  13. 视频关键帧可视化表现研究,TP391.41
  14. 交互式问答系统中的省略恢复研究,TP391.1
  15. 带稀有特征的不确定空间co-location模式挖掘,TP311.13
  16. 基于hadoop平台作业调度算法的研究,TP301.6
  17. 随机算法及信息论在基于内容的视频检索中的应用,TP391.41
  18. 基于特征加权的半监督文本聚类研究,TP391.1
  19. 维基百科:精神交往理论研究的新进路,G206
  20. 基于PCA的贝叶斯网络构造算法与应用,TP18
  21. 基于信息论和粗糙集理论的遥感影像分类不确定性度量,P237

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com