学位论文 > 优秀研究生学位论文题录展示
基于特征加权的半监督文本聚类研究
作 者: 黎佳
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机科学与技术
关键词: 半监督聚类 特征加权 多语言 文本聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术和信息网络技术的发展,社会信息量急剧增加,数据库的规模日益扩大,数据库的数据总量及容量也急剧膨胀,这些广阔的领域为聚类分析方法的应用以及聚类分析的研究提供了宽广的舞台。在很多实际应用中,我们在得到数据的同时,还能得到一些与这些数据相关的先验知识,然而在传统聚类分析过程中,算法在对样本集进行聚类时并未考虑这些先验知识。半监督聚类算法就是研究无监督学习中如何利用少量的监督信息来提高聚类的性能。半监督聚类是近几年机器学习领域的一个新的研究方向,也是数据挖掘的一个重要分支,逐步成为许多领域的有用工具。然而目前在半监督聚类的研究中,尤其是当少量标记数据不足以反映大量无标记数据所蕴含的完整的聚类结构时,其聚类效果并不好。论文首先介绍了半监督聚类的研究背景、研究现状以及研究意义,简单的讲述了常用的聚类方法、目前用的比较多的几种特征选择指标、以及评价准则等等。重点介绍了三种半监督聚类算法:基于搜索的半监督聚类、基于相似度的半监督聚类、基于搜索和相似度的半监督聚类。尤其是基于约束的K-means半监督聚类,本文对其进行了简单的介绍并用实验证明了该算法。其次为了提高半监督聚类算法的准确率,本文对基于约束的K-means算法进行了改进,将特征加权引入半监督聚类过程中,使得类内间的文档相似度更大,并用实验验证了不同特征加权指标对算法的影响。我们不仅在单语言数据集上进行了实验来证明这一算法的有效性,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明在效率和准确率方面,基于特征加权的半监督聚类比跨语言分类表现出更好的性能。
|
全文目录
摘要 3-4 ABSTRACT 4-8 1 引言 8-13 1.1 研究背景 8-9 1.2 研究现状与研究意义 9-11 1.3 论文的工作和创新点 11 1.4 论文组织 11-13 2 半监督聚类理论基础 13-24 2.1 常用聚类算法介绍 13-19 2.1.1 基于划分的方法 13-15 2.1.2 基于层次的方法 15-16 2.1.3 自组织映射 16-18 2.1.4 基于密度的方法 18 2.1.5 其他聚类方法 18-19 2.2 特征选择指标 19-21 2.2.1 GINI 指标 19 2.2.2 χ~ 2 统计量 19-20 2.2.3 信息增益 20-21 2.2.4 互信息 21 2.3 评价指标 21-24 2.3.1 微平均和宏平均 21-22 2.3.2 归一化互信息 22-23 2.3.3 RAND 指标 23-24 3 优化的特征加权半监督聚类 24-34 3.1 半监督聚类算法 24-29 3.1.1 基于搜索的半监督聚类 24-27 3.1.2 基于相似度的半监督聚类 27-28 3.1.3 基于搜索和相似度相结合的半监督聚类 28-29 3.2 基于特征加权的半监督聚类算法 29-32 3.3 计算复杂性 32-34 4 实验设计和分析 34-43 4.1 实验设计 34 4.2 实验环境 34 4.3 实验数据集 34-36 4.4 实验结果及分析 36-43 4.4.1 参数选择实验 37-39 4.4.2 对比实验 39-43 5 总结与展望 43-45 5.1 总结 43 5.2 未来工作 43-45 参考文献 45-49 简历 49-50 致谢 50
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- P2P流量识别方法研究,TP393.06
- 程序理解中支持多语言理解与信息提取技术的研究,TP311.52
- 基于语义分析的文本挖掘研究,TP391.1
- 面向海量数据的云存储系统实现与应用研究,TP333
- 多语言电子词典构建,H085.5
- 有监督的模糊聚类算法研究,TP18
- 支持向量机在入侵检测系统中的研究和应用,TP393.08
- 基于LS-SVM的入侵检测,TP393.08
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
- Web中文文本聚类研究,TP391.1
- 中文文本聚类的评价与改进研究,TP391.1
- 基于特征分析的支持向量分类机,TP311.13
- 面向金融领域BBS的话题发现和热度评价,TP393.094
- Web页面语义信息提取方法的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|