学位论文 > 优秀研究生学位论文题录展示
基于潜在语义的中文文本聚类及其应用
作 者: 简艳
导 师: 王大玲
学 校: 东北大学
专 业: 计算机应用技术
关键词: 文本聚类 潜在语义分析 奇异值分解 k-平均 数据场 云模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 105次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将非结构化的文本信息转化为结构化的词-文档矩阵,然后进行聚类处理。由于自然语言中多义词、同义词等不确定性因素的存在,而向量空间模型只是词面上的匹配,所以利用向量空间模型进行文本聚类,质量欠佳。为了弥补单纯的向量空间模型的这一不足,研究人员开始探索一种智能型的解决方法,即潜在语义分析法。潜在语义分析(LSA),它可以看作是一种扩展的向量空间模型。在利用向量空间模型将数据集里的文本表示成词-文档矩阵之后,LSA通过截断奇异值分解(TSVD),建立低维的词语对文档的潜在语义空间,然后在低维的语义空间中应用k-平均算法来对文本进行聚类。本文主要研究基于潜在语义分析的中文文本聚类的效果,对可能产生影响的因素进行分析。因为截断奇异值分解在过滤“噪声”的同时,也会舍弃一部分的弱势特征。为了减弱LSA对弱势主题的忽略,本文提出一个基于词替代思想的潜在语义分析改进模型。在进行文本聚类时,常用的算法是k-平均聚类算法,k-平均聚类算法时间和空间复杂度较小,易于实现;但k-平均算法在随机选取初始类中心时存在不足,而且不适用于发现大小差别很大的分区,对噪声和孤立点很敏感。本文针对这几点不足,将文本模拟成数据点,借鉴分子间的相互作用力模型,对k-平均聚类算法进行改进,并利用云模型来确定孤立点。最后,本文利用改进的LSA,提出基于用户潜在兴趣的多层次文本聚类模型。实验表明,改进的LSA模型能够更好的解决同义词、多义词问题,并且大大减弱对弱势特征的忽略;改进的k-平均算法聚类效果有很明显的提高,能更好的应用到文本处理中;而基于用户潜在兴趣的文本聚类模型,能够较好的为用户提供服务。
|
全文目录
摘要 6-7 ABSTRACT 7-11 第1章 引言 11-15 1.1 研究背景 11 1.2 研究目的 11-13 1.3 研究的意义 13 1.4 全文的组织结构 13-15 第2章 相关工作 15-27 2.1 文本预处理 15-18 2.1.1 中文分词 15-17 2.1.2 降维技术 17 2.1.3 权重计算 17-18 2.2 文本聚类及其应用 18-21 2.2.1 文本聚类概述 18 2.2.2 文本聚类的应用 18-19 2.2.3 聚类算法 19-21 2.3 数据场在文本聚类中的应用 21-23 2.3.1 数据场概述 21-22 2.3.2 场强函数 22-23 2.4 云理论及其在文本聚类中的应用 23-26 2.4.1 文本数据的不确定性 23-25 2.4.2 云理论 25-26 2.5 本章小结 26-27 第3章 基于潜在语义的中文文本聚类 27-43 3.1 潜在语义分析 27-32 3.1.1 截断奇异值分解 27-28 3.1.2 潜在语义空间更新方法 28-30 3.1.3 潜在语义应用示例及其解释 30-32 3.1.4 潜在语义分析的不足 32 3.2 弱势特征替换策略 32-41 3.2.1 基于《同义词林》的词义距离计算 33-34 3.2.2 基于《知网》的词义距离的计算 34-37 3.2.3 弱势特征替换的具体实现 37-41 3.3 基于潜在语义的多层次文本聚类 41 3.4 本章小结 41-43 第4章 基于数据场改进的k-平均聚类算法 43-55 4.1 k-平均算法描述 43-44 4.1.1 欧氏距离和余弦距离 43 4.1.2 基于方差标准的准则函数 43-44 4.1.3 k-平均算法 44 4.2 基于数据场与云理论改进的k-平均算法 44-54 4.2.1 数据势分布函数 45-46 4.2.2 改进的数据势分布函数 46 4.2.3 数据对象间的影响因子 46-49 4.2.4 基于数据场的孤立点检测 49-50 4.2.5 基于数据场确定初始簇中心 50-51 4.2.6 基于云理论对孤立点分类 51-54 4.3 中文文本聚类过程 54 4.4 本章小结 54-55 第5章 基于用户信息的文本聚类算法研究 55-61 5.1 基于用户的历史访问记录的多层次聚类算法 55-57 5.2 基于用户个人信息的多层次聚类 57-59 5.2.1 基于知网的个人信息扩展 57-59 5.2.2 基于用户个人信息的多层次聚类 59 5.3 本章小节 59-61 第6章 实验结果与分析 61-67 6.1 评估标准 61-62 6.2 改进k-平均算法实验结果 62-64 6.3 基于用户信息的文本聚类算法的实验结果 64-65 6.4 本章小结 65-67 第7章 结束语 67-69 7.1 本文总结 67 7.2 工作展望 67-69 参考文献 69-73 致谢 73-75 攻硕期间参加的项目及发表的论文 75
|
相似论文
- 机载导弹的传递对准研究,V249.322
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于数学形态学分析的激光散斑特性研究,O29
- 基于层次分析法的模糊综合评价研究和应用,O225
- 极端气象灾害下考虑不确定断线故障的电力系统随机优化调度,TM73
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 中国劳动收入份额变化原因研究,F224
- 超声生物显微镜测量睫状沟水平间距的临床评价,R770.4
- 演化聚类算法及其应用研究,TP311.13
- OCT在原发性青光眼早期诊断中的临床应用研究,R775
- 国产异氟醚全凭吸入麻醉影响成年大鼠学习记忆的相关研究,R965
- 基于云模型的软件可信性评估模型,TP311.53
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- SFBC MIMO-OFDM系统峰均比降低算法的研究,TN919.3
- 军队现役干部考核信息系统的设计与实现,TP311.52
- 基于切换机制的BTT导弹控制,TJ765
- 基于证据理论和云模型的多属性决策算法研究,C934
- 工业污染影响因素分解分析,X502
- 核自适应滤波算法的研究,TN713
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|