学位论文 > 优秀研究生学位论文题录展示
大规模文本聚类技术比较分析及在词义归纳中的应用
作 者: 西美
导 师: 朱靖波
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 空间向量模型 k质心 凝聚层次聚类 聚类评价
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
聚类是数据挖掘领域中的研究热点。随着Internet的发展,人们面对的信息与日膨胀,有效的组织无序的信息,生成结构化组织形式,使用户能够轻松的找到自己需要的信息成为聚类发展的无限动力。将文本聚类,自动组织文本需要经过文本预处理,聚类,然后根据需要对聚类结果给出评价。涉及到的关键技术有空间向量模型(VSM),聚类分析算法,聚类结果评价方法等。目前大多数文本聚类的研究仅给出一种聚类算法及其改进算法在文本数据上的性能比较和分析。没有一份在同一数据平台上各种不同聚类算法的对比分析报告,没有详细的关于基于不同思想的聚类分析算法的优缺点的说明。本文详细的分析和比较了基于划分的方法、层次聚类方法、基于密度的聚类方法在同一数据集上的性能,说明了不同聚类算法适合的数据分布,弥补了这一空白。对于大部分聚类算法并不适合大规模的数据集,有些算法在大规模数据集上甚至不能运行,如凝聚层次聚类。而Internet的发展给文本聚类带来大规模的挑战。本文最后提出了一种可以用于大规模数据的文本聚类算法。算法在没有降低性能的基础上大大提高了算法的效率。文本聚类算法在许多任务中有广泛的应用,如词义归纳。词义归纳就是自动地发现给定歧义词的词义集合。本文的最后,详细说明了文本聚类算法在词义归纳任务中的应用。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-14 1.1 研究背景和意义 10-11 1.2 研究现状与相关工作 11 1.3 文本聚类概述 11-12 1.4 本文主要研究工作及组织结构 12-14 第2章 文本聚类预处理及评价方法 14-30 2.1 文本聚类预处理 14-18 2.1.1 分词及词性标注 14 2.1.2 停用词过滤 14-15 2.1.3 向量空间模型概述 15-16 2.1.4 文本特征选择 16-17 2.1.5 特征权重的计算 17-18 2.2 文本相似度计算 18-21 2.2.1 基于距离的文本相似度计算 19 2.2.2 基于空间向量理论的文本相似度计算 19-20 2.2.3 SNN相似度 20-21 2.2.4 本文实验采取的相似度计算 21 2.3 本文的文本预处理模块设计 21-22 2.4 聚类算法选择 22-25 2.4.1 数据的性质 22-23 2.4.2 簇的性质 23-24 2.4.3 聚类算法性质 24 2.4.4 本文使用的数据及其分布分析 24-25 2.5 聚类结果的评价 25-28 2.5.1 紧致度和分离度 26 2.5.2 Silhouette系数 26-27 2.5.3 基于分类的有监督的评价算法 27 2.5.4 基于相似度的有监督评价方法 27 2.5.5 本文采取的聚类评价方法 27-28 2.6 本章小结 28-30 第3章 不同聚类算法的分析比较 30-48 3.1 基于划分的聚类算法 30-36 3.1.1 K-means算法 30-32 3.1.2 K-means++算法 32 3.1.3 划分层次聚类 32-33 3.1.4 实验结果分析与比较 33-36 3.2 凝聚层次聚类技术 36-40 3.2.1 凝聚层次聚类概述 36-38 3.2.2 凝聚层次聚类优缺点 38 3.2.3 实验性能分析与比较 38-40 3.3 基于密度的文本聚类算法DBSCAN 40-44 3.3.1 DBSCAN简介 41-42 3.3.2 DBSCAN参数的选择 42-43 3.3.3 DBSCAN优缺点 43-44 3.3.4 实验结果及分析 44 3.4 不同聚类算法的性能分析与比较 44-47 3.5 本章小结 47-48 第4章 适用于大规模数据集的聚类算法 48-56 4.1 问题的研究背景和意义 48 4.2 大规模数据集给文本聚类提出的挑战 48-49 4.2.1 聚类算法在大规模数据集上的问题 48-49 4.2.2 大规模数据集对聚类算法的要求 49 4.3 适用于大规模数据集的聚类算法 49-51 4.3.1 算法的思想 49-50 4.3.2 算法的过程 50-51 4.3.3 算法优缺点及时间复杂度 51 4.4 实验性能和分析 51-54 4.4.1 实验数据构建 52 4.4.2 实验设计 52-53 4.4.3 实验结果 53-54 4.5 本章小结 54-56 第5章 聚类技术在词义归纳任务中的应用 56-66 5.1 课题背景及意义 56 5.2 中文词义归纳问题描述 56-58 5.2.1 问题定义 56-57 5.2.2 问题分析 57 5.2.3 问题特点 57-58 5.3 聚类方法 58 5.4 特征抽取 58-61 5.4.1 词性(POS)特征 58-59 5.4.2 邻近词(SWD)特征 59-60 5.4.3 搭配词(COL)特征 60-61 5.4.4 词主题(TP)特征 61 5.5 聚类算法 61-62 5.6 实验 62-65 5.6.1 实验数据 63 5.6.2 系统性能评价方法 63 5.6.3 特征选取对系统性能的影响 63-65 5.6.4 聚类算法对系统性能的影响 65 5.7 本章小节 65-66 第6章 总结和展望 66-68 6.1 研究工作总结 66 6.2 未来工作展望 66-68 参考文献 68-72 致谢 72-74 攻读学位期间所参与的项目 74
|
相似论文
- 无线传感器网络中改进的DV-hop定位算法,TN929.5
- 视频图像中的运动目标检测与跟踪,TP391.41
- 海南岛滨海旅游资源评价研究,F592.7
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于DSP的海上油膜厚度测量数据采集系统的研究,TP274.2
- 基于Ajax和Soap Service的应用框架及实现方法研究,TP393.09
- 改进的模糊C-均值算法在文本聚类中的应用研究,TP391.1
- 中文文本聚类的评价与改进研究,TP391.1
- 基于灰色模型的企业合作创新绩效评价体系研究,F272
- 连通区域加权的CVT模型在图像分割中的应用,TP391.41
- 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
- 东北地区上市公司长期负债融资效率研究,F275
- 基于U-AHC的不确定co-location模式挖掘研究,TP311.13
- 面向分析处理的关键字查询性能优化技术研究,TP311.13
- 成都市交通行业管理服务质量评价系统的设计与实现,TP311.52
- 黑龙江省高校研究生生源质量评价研究,G643
- 基于SOM算法的城市给水管网水质评价,TU991.21
- 基于Web的汽车产品评论观点挖掘方法研究,U462
- 用户网页浏览兴趣模型建模方法的研究,TP393.092
- 基于聚类的入侵检测模型及算法研究,TP393.08
- 基于决策树的模糊聚类评价算法及其在证券领域的应用,C934
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|