学位论文 > 优秀研究生学位论文题录展示

聚类分析及其在文本挖掘中的应用

作 者: 李健
导 师: 武波;马力
学 校: 西安电子科技大学
专 业: 计算机软件与理论
关键词: 文本挖掘 聚类分析 文本聚类 K-means算法 特征向量
分类号: TP311.13
类 型: 硕士论文
年 份: 2005年
下 载: 1022次
引 用: 17次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究已经引起了广泛的重视,并取得了良好的成果。 本文首先对数据挖掘中的聚类分析做了深入的理论研究,以数学的形式表示和讨论了聚类分析中样本类型、样本相似度测量、类的定义等基本概念,分析了五种常用的聚类算法,并对算法性能做了分析与比较。 本文随后对于聚类分析在文本挖掘中的应用——文本聚类做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类算法。 最后,给出了一个简单的文本聚类模型,并基于K—means文本聚类算法,对模型做了一种设计和实现。

全文目录


第一章 绪论  7-13
  1.1 课题背景与意义  7-8
  1.2 文本挖掘的研究现状  8-10
    1.2.1 文本挖掘的定义  8-9
    1.2.2 文本挖掘的分类  9-10
  1.3 文本聚类  10-11
  1.4 论文内容的安排  11-13
第二章 聚类分析  13-21
  2.1 聚类分析定义  13-14
  2.2 样本类型和相似度测量  14-17
    2.2.1 样本类型  14-15
    2.2.2 相似度测量  15-17
  2.3 类的定义  17-18
  2.4 聚类过程  18-19
  2.5 聚类分析中的孤立点问题  19-21
第三章 几种常用聚类算法的分析与比较  21-31
  3.1 常用聚类算法的分类  21-22
  3.2 划分的K-means聚类算法  22-23
  3.3 层次的利用多代表点聚类算法CURE  23-24
  3.4 基于高密度连接区域的DBSCAN聚类算法  24-25
  3.5 基于神经网络模型的SOM算法  25-27
  3.6 模糊C均值聚类算法FCM  27-28
  3.7 几种常用聚类算法的比较  28-31
    3.7.1 聚类算法的评价标准  28-29
    3.7.2 聚类算法的性能比较  29-31
第四章 文本聚类相关技术的讨论  31-39
  4.1 中文文本预处理技术  32-36
    4.1.1 文本特征表示与向量空间模型  32
    4.1.2 分词处理与词频统计  32-34
    4.1.3 文本特征提取  34-35
    4.1.4 特征项的权重计算  35-36
  4.2 文本聚类算法  36-39
    4.2.1 文本聚类的相似度度量及相关定义  36-37
    4.2.2 基于K-means的文本聚类算法  37-39
第五章 一个简单文本聚类模型的设计与实现  39-47
  5.1 聚类模型  39
  5.2 主要数据结构和模块  39-43
    5.2.1 数据结构  39-40
    5.2.2 功能模块  40-43
  5.3 基于模型的文本聚类实验  43-47
    5.3.1 实验过程  43-45
    5.3.2 实验结果分析  45-47
第六章 论文总结与展望  47-49
致谢  49-51
读研期间的研究成果  51-53
参考文献  53-54

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  3. 大学生综合素质测评研究,G645.5
  4. 基于相似度计算的编程题自动评判方法研究,TP312.1
  5. 演化聚类算法及其应用研究,TP311.13
  6. 基于本体的食品投诉文档文本聚类研究,TP391.1
  7. 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
  8. 基于网络的教务办公管理系统设计与实现,TP311.52
  9. 文献计量学和文本挖掘在生命科学中的应用,TP391.1
  10. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  11. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  12. 草原公路光环境对驾驶员生理指标的影响研究,U491.254
  13. 广义模糊矩阵若干问题的研究,O151.21
  14. 面向短消息文本的聚类技术研究与应用,TP391.1
  15. 教育新闻热点话题发现系统的设计与实现,TP391.1
  16. 联合聚类算法研究及应用,TP311.13
  17. 太阳能电池缺陷识别的研究与实现,TP391.41
  18. 基于文本聚类和语料库的信誉维度发现研究,TP391.1
  19. Web新闻热点发现系统的设计与实现,TP393.09
  20. 航空发动机燃调系统故障诊断,V263.6
  21. 美国影评人视野中的中国电影,J905

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com