学位论文 > 优秀研究生学位论文题录展示

LSA与SOM相结合的文本聚类算法应用研究

作 者: 张春炉
导 师: 沈建京
学 校: 解放军信息工程大学
专 业: 计算机应用技术
关键词: 文本聚类 潜在语义分析 奇异值分解 自组织映射 词性标注
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 59次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的发展,信息的规模越来越巨大,增加速度越来越快,信息的类型和结构越来越复杂多样。人类所面临的问题由以前无法有效地从分散且不成规模的信息中获取有用的信息,转变成现在难于从海量而复杂的信息中高效而准确地获取和访问信息。作为数据挖掘领域的一个重要分支,文本聚类具有较强的灵活性和自动处理能力,已经广泛应用于许多领域。文本聚类通过高效的聚类、重新组织和导航文本数据,可以提高查询效率和精度。可以说,文本聚类的研究具有重要的理论意义和实际应用价值。本文在对文本聚类的整个流程深入研究的基础上,利用潜在语义分析(Latent Semantic Analysis,LSA)在语义处理和空间降维方面的优势,以及自组织映射(Self-Organizing Maps,SOM)聚类算法在自组织、自适应、自动化、易于可视化和聚类效果好等方面的优良特性,探索和研究了潜在语义分析和自组织映射算法在文本聚类中的应用,并在实验语料库中进行验证分析。本文的主要研究内容如下:首先,本文研究了文本预处理关键技术。文本预处理是文本聚类的基础,直接影响文本聚类的效果。主要包括:摘要内容提取,词性筛选,停用词过滤,和向量空间构建。摘要内容提取采用基于文档对象模型(Document Object Modal,DOM)解析网页,提取出摘要内容。词性筛选采用基于规则方法进行词性标注,然后利用正则表达式工具去除不重要词性,保留名词性、动词性和形容词性等意义丰富的词性成分。向量空间采用词频作为权值的向量空间模型构建。其次,研究了潜在语义分析模型。潜在语义分析模型能够较好的消除同义词和多义词等语义问题,并且可以利用奇异值分解(Singular Value Decomposition,SVD)有效的降低向量空间的规模。本文在对多种权值计算方法进行分析的基础上,选择出比较适合本语料库的权值计算方法。在此基础上进行奇异值分解,得到新的文本的近似语义空间。再次,研究了自组织映射聚类算法。针对的自组织映射算法聚类效果不佳的情况,本文对经典的自组织映射算法进行改进,将训练过程分成粗糙训练和精细训练两个步骤,提高训练的针对性,得到较好的聚类效果。最后,通过对预处理后的语料库进行聚类实验,并对实验结果进行比较分析。验证了潜在语义分析模型对文本空间进行高效的降维,可以提高了后续聚类效率,降低时间复杂度,并且可以通过数学方法间接解决自然语言处理中的部分语义问题。同时验证了相较于k-means方法,本文改进的自组织映射方法聚类结果的有效性和优越性。

全文目录


摘要  9-10
Abstract  10-12
第一章 绪论  12-16
  1.1 选题的背景与意义  12-13
  1.2 国内外研究现状  13-14
  1.3 论文的主要研究内容  14-15
  1.4 论文的组织  15-16
第二章 文本聚类方法及关键理论  16-32
  2.1 文本聚类方法  16-19
    2.1.1 基于层次的方法  16-17
    2.1.2 基于划分的方法  17
    2.1.3 基于密度的方法  17
    2.1.4 基于网格的方法  17-18
    2.1.5 基于模型的方法  18
    2.1.6 文本聚类算法面临的挑战  18-19
  2.2 文本向量构建  19-22
    2.2.1 英文词法分析  19-20
    2.2.2 数据清洗  20
    2.2.3 特征词选取  20-21
    2.2.4 文本向量空间构建  21-22
  2.3 潜在语义分析模型  22-26
    2.3.1 潜在语义分析模型简介  22-23
    2.3.2 奇异值分解原理  23-25
    2.3.3 相似度计算  25-26
    2.3.4 潜在语义分析模型特点和应用  26
  2.4 自组织映射算法  26-31
    2.4.1 自组织映射简介  26-27
    2.4.2 自组织映射工作原理  27-29
    2.4.3 经典自组织映射算法  29-30
    2.4.4 自组织映射性能度量  30
    2.4.5 自组织映射特点  30-31
  2.5 本章小结  31-32
第三章 LSA和SOM相结合的文本聚类算法应用  32-46
  3.1 摘要文本库的构建  32-34
    3.1.1 领域的选择  32
    3.1.2 摘要文本的下载  32
    3.1.3 摘要内容的提取  32-34
  3.2 文本向量构建  34-39
    3.2.1 词性标注  34-36
    3.2.2 词性清洗  36-37
    3.2.3 词频信息统计  37-38
    3.2.4 特征词选取  38
    3.2.5 文本向量构建  38-39
  3.3 潜在语义空间构建  39-40
    3.3.1 权值调整  39
    3.3.2 潜在语义空间构建  39-40
  3.4 自组织映射算法的改进研究  40-44
    3.4.1 自组织映射算法改进的思路  40-41
    3.4.2 自组织映射算法改进的主要步骤  41
    3.4.3 自组织映射算法改进的实现  41-44
  3.5 本章小结  44-46
第四章 文本聚类实现和结果分析  46-58
  4.1 系统框架  46
  4.2 摘要库构建模块  46-48
  4.3 向量空间构建模块  48-52
    4.3.1 向量空间构建流程  48-51
    4.3.2 词性成分筛选对向量空间构建的影响  51-52
  4.4 潜在语义空间构建  52-53
  4.5 聚类结果分析  53-57
  4.6 本章小结  57-58
第五章 总结与展望  58-60
  5.1 本文主要工作  58
  5.2 展望  58-60
参考文献  60-64
作者简历攻读硕士学位期间发表的学术论文  64-66
致谢  66

相似论文

  1. 机载导弹的传递对准研究,V249.322
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 演化聚类算法及其应用研究,TP311.13
  4. 基于本体的食品投诉文档文本聚类研究,TP391.1
  5. 面向短消息文本的聚类技术研究与应用,TP391.1
  6. 教育新闻热点话题发现系统的设计与实现,TP391.1
  7. 主观题自动评分技术研究,TP391.1
  8. 面向股票价格指数多步预测的混合模型研究,F224
  9. 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
  10. 面向情感的电影背景音乐分类方法研究,TP391.1
  11. 基于核回归与非局部方法的图像去噪研究,TP391.41
  12. Web新闻热点发现系统的设计与实现,TP393.09
  13. 基于ML_pLSA模型和特征包算法的目标识别方法,TP391.41
  14. 膜蛋白跨膜螺旋结构预测研究,Q51
  15. 基于子空间分析的扩频通信窄带干扰抑制研究,TN914.42
  16. 基于核自组织映射的时间序列预测研究,O211.61
  17. 面向海量数据的云存储系统实现与应用研究,TP333
  18. 基于奇异值分解的信号处理方法及其在机械故障诊断中的应用,TH165.3
  19. 面向学科的文献资源聚类系统研究及应用,TP391.1
  20. 基于子空间分析的人脸识别算法研究,TP391.41
  21. 中文命名实体识别与歧义消解研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com