学位论文 > 优秀研究生学位论文题录展示
基于语义的文本聚类搜索研究
作 者: 苏喻
导 师: 郑诚
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 文本聚类 聚类算法 基于密度 VSM模型 语义
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 61次
引 用: 0次
阅 读: 论文下载
内容摘要
文本聚类是数据挖掘领域中的一个重要分支,尤其在信息量迅速增长的当今社会,文本聚类能够在人们日常的生产生活中起到重要作用。国内外围绕着文本聚类这一课题进行了大量的研究,并有了些初步的成果,但是从目前的研究状况来看,文本聚类仍有很多地方需要改进。本文通过对现有研究成果的介绍和对比分析,总结出文本聚类的两个值得改进的关键点:一方面,聚类算法作为文本聚类的核心部分,能够直接影响整个聚类过程的效率和聚类质量,而目前并没有特别适用于文本聚类领域的聚类算法,大部分的算法也无法同时在算法复杂度和聚类质量上有良好的表现;另一方面,大部分的方法未能充分考虑到语义因素对文本聚类的影响,或者在聚类过程中未能有效的融入语义因素,因而得到的聚类结果不够理想。针对如何合理的平衡聚类算法的复杂度和聚类质量这一问题,本文介绍和分析了几个具有代表性的聚类算法在文本聚类领域中的优势和不足,并结合了基于划分的聚类算法和基于密度的聚类算法各自的优点,提出了基于密度的聚类算法DBCKNN。DBCKNN算法利用了k近邻和离群度等慨念,能够迅速确定数据集中每类的中心并自动调节类半径,在保证了聚类效果的基础上提高了聚类的效率针对如何有效的将语义因素融入聚类过程这个问题,本文利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。本文也通过理论分析和实验验证了所提出算法与方法的有效性和正确性。本文在文章最后对所做的工作做出了合理评价,并对文本聚类领域未来的发展做出了展望。
|
全文目录
摘要 3-4 Abstract 4-6 目录 6-8 第一章 绪论 8-14 1.1 研究背景及意义 8-10 1.2 国内外研究现状 10-13 1.3 本文的主要内容和组织结构 13-14 第二章 基于语义的文本聚类搜索技术概要 14-26 2.1 基于语义的文本聚类搜索定义 14 2.2 基于语义的文本聚类搜索的工作流程 14-21 2.2.1 文本内容预处理 15-16 2.2.2 文本的特征向量提取 16-17 2.2.3 特征向量矩阵降维 17-18 2.2.4 文本相似度计算 18-20 2.2.5 文本聚类 20-21 2.3 聚类算法研究 21-25 2.3.1 经典聚类算法分类概述 21-24 2.3.2 聚类算法的评价方法 24-25 2.4 小结 25-26 第三章 基于密度聚类算法的改进 26-41 3.1 基于密度的聚类算法 26-28 3.1.1 文本聚类领域下算法的选择 26 3.1.2 基于密度的聚类算法的研究现状 26-28 3.1.3 改进方向 28 3.2 DBCKNN算法 28-36 3.2.1 相关标记与标识 28-32 3.2.2 算法改进 32-36 3.3 算法与实验分析 36-40 3.3.1 DBCKNN算法时间复杂度分析 36-37 3.3.2 实验结果和分析 37-40 3.4 小结 40-41 第四章 基于语义的VSM模型改进 41-54 4.1 对传统VSM模型的改进 41-43 4.1.1 VSM模型概念 41 4.1.2 VSM模型下的文本相似度计算的改进方向 41-43 4.2 基于语义扭曲VSM模型下的聚类 43-49 4.2.1 扭曲VSM模型下求向量夹角大小程度的方法 43-45 4.2.2 两个结论 45-47 4.2.3 实例 47-49 4.3 算法与实验分析 49-53 4.3.1 传统方法与本文改进后方法复杂度的比较 49-51 4.3.2 实验结果和分析 51-53 4.4 结论及工作方向 53-54 第五章 总结与展望 54-56 5.1 工作总结 54 5.2 工作展望 54-56 附录 56-60 附录A 图索引 56-57 附录B 表索引 57-58 Appendix A. Figure Index 58-59 Appendix B. Table Index 59-60 参考文献 60-64 致谢 64-65 攻读学位期间发表的学术论文 65
|
相似论文
- 《左传》名词陈述化研究,H146
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- K-均值聚类算法的研究与改进,TP311.13
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- K-means聚类优化算法的研究,TP311.13
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 乔治·米勒的认知意义论,B842.1
- 演化聚类算法及其应用研究,TP311.13
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- SAR干涉像对优化选取方法研究,P225.2
- 心智游移频率特征研究:问卷开发,B841
- 基于语义网络的智能搜索引擎研究,TP391.3
- 汉语框架自动识别中的歧义消解,TP391.1
- 《摩诃僧祗律》范围副词研究,H141
- “二拍”述补结构研究,H141
- 汉语中羡余类形式研究综述,H146
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|