学位论文 > 优秀研究生学位论文题录展示

基于潜在语义的中文文本聚类及其应用

作 者: 简艳
导 师: 王大玲
学 校: 东北大学
专 业: 计算机应用技术
关键词: 文本聚类 潜在语义分析 奇异值分解 k-平均 数据场 云模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 105次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将非结构化的文本信息转化为结构化的词-文档矩阵,然后进行聚类处理。由于自然语言中多义词、同义词等不确定性因素的存在,而向量空间模型只是词面上的匹配,所以利用向量空间模型进行文本聚类,质量欠佳。为了弥补单纯的向量空间模型的这一不足,研究人员开始探索一种智能型的解决方法,即潜在语义分析法。潜在语义分析(LSA),它可以看作是一种扩展的向量空间模型。在利用向量空间模型将数据集里的文本表示成词-文档矩阵之后,LSA通过截断奇异值分解(TSVD),建立低维的词语对文档的潜在语义空间,然后在低维的语义空间中应用k-平均算法来对文本进行聚类。本文主要研究基于潜在语义分析的中文文本聚类的效果,对可能产生影响的因素进行分析。因为截断奇异值分解在过滤“噪声”的同时,也会舍弃一部分的弱势特征。为了减弱LSA对弱势主题的忽略,本文提出一个基于词替代思想的潜在语义分析改进模型。在进行文本聚类时,常用的算法是k-平均聚类算法,k-平均聚类算法时间和空间复杂度较小,易于实现;但k-平均算法在随机选取初始类中心时存在不足,而且不适用于发现大小差别很大的分区,对噪声和孤立点很敏感。本文针对这几点不足,将文本模拟成数据点,借鉴分子间的相互作用力模型,对k-平均聚类算法进行改进,并利用云模型来确定孤立点。最后,本文利用改进的LSA,提出基于用户潜在兴趣的多层次文本聚类模型。实验表明,改进的LSA模型能够更好的解决同义词、多义词问题,并且大大减弱对弱势特征的忽略;改进的k-平均算法聚类效果有很明显的提高,能更好的应用到文本处理中;而基于用户潜在兴趣的文本聚类模型,能够较好的为用户提供服务。

全文目录


摘要  6-7
ABSTRACT  7-11
第1章 引言  11-15
  1.1 研究背景  11
  1.2 研究目的  11-13
  1.3 研究的意义  13
  1.4 全文的组织结构  13-15
第2章 相关工作  15-27
  2.1 文本预处理  15-18
    2.1.1 中文分词  15-17
    2.1.2 降维技术  17
    2.1.3 权重计算  17-18
  2.2 文本聚类及其应用  18-21
    2.2.1 文本聚类概述  18
    2.2.2 文本聚类的应用  18-19
    2.2.3 聚类算法  19-21
  2.3 数据场在文本聚类中的应用  21-23
    2.3.1 数据场概述  21-22
    2.3.2 场强函数  22-23
  2.4 云理论及其在文本聚类中的应用  23-26
    2.4.1 文本数据的不确定性  23-25
    2.4.2 云理论  25-26
  2.5 本章小结  26-27
第3章 基于潜在语义的中文文本聚类  27-43
  3.1 潜在语义分析  27-32
    3.1.1 截断奇异值分解  27-28
    3.1.2 潜在语义空间更新方法  28-30
    3.1.3 潜在语义应用示例及其解释  30-32
    3.1.4 潜在语义分析的不足  32
  3.2 弱势特征替换策略  32-41
    3.2.1 基于《同义词林》的词义距离计算  33-34
    3.2.2 基于《知网》的词义距离的计算  34-37
    3.2.3 弱势特征替换的具体实现  37-41
  3.3 基于潜在语义的多层次文本聚类  41
  3.4 本章小结  41-43
第4章 基于数据场改进的k-平均聚类算法  43-55
  4.1 k-平均算法描述  43-44
    4.1.1 欧氏距离和余弦距离  43
    4.1.2 基于方差标准的准则函数  43-44
    4.1.3 k-平均算法  44
  4.2 基于数据场与云理论改进的k-平均算法  44-54
    4.2.1 数据势分布函数  45-46
    4.2.2 改进的数据势分布函数  46
    4.2.3 数据对象间的影响因子  46-49
    4.2.4 基于数据场的孤立点检测  49-50
    4.2.5 基于数据场确定初始簇中心  50-51
    4.2.6 基于云理论对孤立点分类  51-54
  4.3 中文文本聚类过程  54
  4.4 本章小结  54-55
第5章 基于用户信息的文本聚类算法研究  55-61
  5.1 基于用户的历史访问记录的多层次聚类算法  55-57
  5.2 基于用户个人信息的多层次聚类  57-59
    5.2.1 基于知网的个人信息扩展  57-59
    5.2.2 基于用户个人信息的多层次聚类  59
  5.3 本章小节  59-61
第6章 实验结果与分析  61-67
  6.1 评估标准  61-62
  6.2 改进k-平均算法实验结果  62-64
  6.3 基于用户信息的文本聚类算法的实验结果  64-65
  6.4 本章小结  65-67
第7章 结束语  67-69
  7.1 本文总结  67
  7.2 工作展望  67-69
参考文献  69-73
致谢  73-75
攻硕期间参加的项目及发表的论文  75

相似论文

  1. 机载导弹的传递对准研究,V249.322
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 基于数学形态学分析的激光散斑特性研究,O29
  4. 基于层次分析法的模糊综合评价研究和应用,O225
  5. 极端气象灾害下考虑不确定断线故障的电力系统随机优化调度,TM73
  6. 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
  7. 中国劳动收入份额变化原因研究,F224
  8. 超声生物显微镜测量睫状沟水平间距的临床评价,R770.4
  9. 演化聚类算法及其应用研究,TP311.13
  10. OCT在原发性青光眼早期诊断中的临床应用研究,R775
  11. 国产异氟醚全凭吸入麻醉影响成年大鼠学习记忆的相关研究,R965
  12. 基于云模型的软件可信性评估模型,TP311.53
  13. 基于本体的食品投诉文档文本聚类研究,TP391.1
  14. SFBC MIMO-OFDM系统峰均比降低算法的研究,TN919.3
  15. 军队现役干部考核信息系统的设计与实现,TP311.52
  16. 基于切换机制的BTT导弹控制,TJ765
  17. 基于证据理论和云模型的多属性决策算法研究,C934
  18. 工业污染影响因素分解分析,X502
  19. 核自适应滤波算法的研究,TN713
  20. 面向短消息文本的聚类技术研究与应用,TP391.1
  21. 教育新闻热点话题发现系统的设计与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com