学位论文 > 优秀研究生学位论文题录展示

基于潜在语义的中文文本聚类及其应用

作　者: 简艳
导　师: 王大玲
学　校: 东北大学
专　业: 计算机应用技术
关键词: 文本聚类潜在语义分析奇异值分解 k-平均数据场云模型
分类号: TP391.1
类　型: 硕士论文
年　份: 2008年
下　载: 105次
引　用: 0次
阅　读: 论文下载

内容摘要

随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将非结构化的文本信息转化为结构化的词-文档矩阵,然后进行聚类处理。由于自然语言中多义词、同义词等不确定性因素的存在,而向量空间模型只是词面上的匹配,所以利用向量空间模型进行文本聚类,质量欠佳。为了弥补单纯的向量空间模型的这一不足,研究人员开始探索一种智能型的解决方法,即潜在语义分析法。潜在语义分析(LSA),它可以看作是一种扩展的向量空间模型。在利用向量空间模型将数据集里的文本表示成词-文档矩阵之后,LSA通过截断奇异值分解(TSVD),建立低维的词语对文档的潜在语义空间,然后在低维的语义空间中应用k-平均算法来对文本进行聚类。本文主要研究基于潜在语义分析的中文文本聚类的效果,对可能产生影响的因素进行分析。因为截断奇异值分解在过滤“噪声”的同时,也会舍弃一部分的弱势特征。为了减弱LSA对弱势主题的忽略,本文提出一个基于词替代思想的潜在语义分析改进模型。在进行文本聚类时,常用的算法是k-平均聚类算法,k-平均聚类算法时间和空间复杂度较小,易于实现；但k-平均算法在随机选取初始类中心时存在不足,而且不适用于发现大小差别很大的分区,对噪声和孤立点很敏感。本文针对这几点不足,将文本模拟成数据点,借鉴分子间的相互作用力模型,对k-平均聚类算法进行改进,并利用云模型来确定孤立点。最后,本文利用改进的LSA,提出基于用户潜在兴趣的多层次文本聚类模型。实验表明,改进的LSA模型能够更好的解决同义词、多义词问题,并且大大减弱对弱势特征的忽略；改进的k-平均算法聚类效果有很明显的提高,能更好的应用到文本处理中；而基于用户潜在兴趣的文本聚类模型,能够较好的为用户提供服务。

全文目录

摘要  6-7
ABSTRACT  7-11
第1章引言  11-15
  1.1 研究背景  11
  1.2 研究目的  11-13
  1.3 研究的意义  13
  1.4 全文的组织结构  13-15
第2章相关工作  15-27
  2.1 文本预处理  15-18
    2.1.1 中文分词  15-17
    2.1.2 降维技术  17
    2.1.3 权重计算  17-18
  2.2 文本聚类及其应用  18-21
    2.2.1 文本聚类概述  18
    2.2.2 文本聚类的应用  18-19
    2.2.3 聚类算法  19-21
  2.3 数据场在文本聚类中的应用  21-23
    2.3.1 数据场概述  21-22
    2.3.2 场强函数  22-23
  2.4 云理论及其在文本聚类中的应用  23-26
    2.4.1 文本数据的不确定性  23-25
    2.4.2 云理论  25-26
  2.5 本章小结  26-27
第3章基于潜在语义的中文文本聚类  27-43
  3.1 潜在语义分析  27-32
    3.1.1 截断奇异值分解  27-28
    3.1.2 潜在语义空间更新方法  28-30
    3.1.3 潜在语义应用示例及其解释  30-32
    3.1.4 潜在语义分析的不足  32
  3.2 弱势特征替换策略  32-41
    3.2.1 基于《同义词林》的词义距离计算  33-34
    3.2.2 基于《知网》的词义距离的计算  34-37
    3.2.3 弱势特征替换的具体实现  37-41
  3.3 基于潜在语义的多层次文本聚类  41
  3.4 本章小结  41-43
第4章基于数据场改进的k-平均聚类算法  43-55
  4.1 k-平均算法描述  43-44
    4.1.1 欧氏距离和余弦距离  43
    4.1.2 基于方差标准的准则函数  43-44
    4.1.3 k-平均算法  44
  4.2 基于数据场与云理论改进的k-平均算法  44-54
    4.2.1 数据势分布函数  45-46
    4.2.2 改进的数据势分布函数  46
    4.2.3 数据对象间的影响因子  46-49
    4.2.4 基于数据场的孤立点检测  49-50
    4.2.5 基于数据场确定初始簇中心  50-51
    4.2.6 基于云理论对孤立点分类  51-54
  4.3 中文文本聚类过程  54
  4.4 本章小结  54-55
第5章基于用户信息的文本聚类算法研究  55-61
  5.1 基于用户的历史访问记录的多层次聚类算法  55-57
  5.2 基于用户个人信息的多层次聚类  57-59
    5.2.1 基于知网的个人信息扩展  57-59
    5.2.2 基于用户个人信息的多层次聚类  59
  5.3 本章小节  59-61
第6章实验结果与分析  61-67
  6.1 评估标准  61-62
  6.2 改进k-平均算法实验结果  62-64
  6.3 基于用户信息的文本聚类算法的实验结果  64-65
  6.4 本章小结  65-67
第7章结束语  67-69
  7.1 本文总结  67
  7.2 工作展望  67-69
参考文献  69-73
致谢  73-75
攻硕期间参加的项目及发表的论文  75

基于潜在语义的中文文本聚类及其应用

内容摘要

全文目录

相似论文