学位论文 > 优秀研究生学位论文题录展示

基于相似度的文本聚类算法研究及应用

作　者: 曾路平
导　师: 李星毅
学　校: 江苏大学
专　业: 计算机应用技术
关键词: 文本聚类单词相似度 K-Means 向量空间模型公安情报
分类号: TP301.6
类　型: 硕士论文
年　份: 2009年
下　载: 273次
引　用: 6次
阅　读: 论文下载

内容摘要

文本聚类是文本挖掘的一个重要分支,因其独特的知识发现功能而得到较为深入的研究。文本聚类算法已经在文档自动整理、检索结果的组织和数字图书馆服务等方面得到了广泛的应用。但是在应用中随着文本集的不断扩大,传统的文本聚类算法遇到了一些难以克服的困难,算法忽略了文本中单词之间的语义相关性,算法聚类结果不稳定等。论文主要针对以上问题对文本聚类进行研究。论文首先详细介绍了传统的文本聚类算法,并对其进行比较和分析。其次,为了解决向量空间模型忽略单词之间的语义相关性的问题,提出了一种基于单词相似度的文本聚类算法(TCWS);针对传统K-Means算法聚类结果不稳定的缺点,提出了一种基于文本平均相似度的K-Means算法(KAAST)。最后,将研究成果应用到公安情报系统中。本文的主要研究内容概括如下:(1)介绍了常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于单词相似度的文本聚类算法(TCWS)。该算法首先利用单词相似度对单词进行聚类获得单词之间的语义相关性,然后利用产生的单词类作为向量空间模型的项表示文本,降低了向量空间的维度,最后采用基于划分聚类算法对文本聚类。实验表明TCWS算法提高了聚类结果的正确性。(3)提出一种基于文本平均相似度的K-Means算法(KAAST)。该算法首先构造文本平均相似度集合,其次从集合中选取当前平均相似度最大的文本作为初始聚类中心,同时删除集合中与其簇相关的文本,这样选取出的中心点不但具有代表性且分散,最后利用选取的中心作为K-Means算法的初始聚类中心对文本聚类。实验表明KAAST算法的稳定性有较大的提高。(4)在理论研究的基础上,将本文提出的算法应用到公安情报系统中,并设计和实现了文本聚类子系统,提高了情报处理的效率和正确性。

全文目录

摘要  5-6
ABSTRACT  6-10
第一章绪论  10-14
  1.1 课题研究背景及意义  10-11
  1.2 国内外研究现状  11-12
  1.3 研究内容及安排  12-14
第二章文本聚类算法及分析  14-27
  2.1 文本挖掘相关知识  14-18
    2.1.1 文本挖掘的定义  14
    2.1.2 文本挖掘的处理过程  14-15
    2.1.3 文本挖掘的特点  15-16
    2.1.4 文本挖掘常用技术  16
    2.1.5 文本挖掘中面临的课题  16-18
  2.2 文本聚类算法  18-22
    2.2.1 基于划分的算法  18
    2.2.2 基于层次的算法  18-19
    2.2.3 基于密度的算法  19-20
    2.2.4 基于网格的算法  20-21
    2.2.5 基于模型的算法  21-22
    2.2.6 基于模糊的算法  22
  2.3 文本聚类算法的比较  22-24
  2.4 文本聚类效果评价指标  24-26
  2.5 本章小结  26-27
第三章基于单词相似度的文本聚类算法  27-50
  3.1 文本预处理  27-40
    3.1.1 分词  27-31
    3.1.2 停用词  31-32
    3.1.3 特征选择  32-37
    3.1.4 文本表示模型  37-40
  3.2 基于单词类的向量空间模型  40-43
    3.2.1 单词相似度  41-42
    3.2.2 单词类权重计算  42-43
  3.3 基于单词相似度的文本聚类算法  43-49
    3.3.1 文本相似度  43-46
    3.3.2 算法流程  46-47
    3.3.3 实验结果及分析  47-49
  3.4 本章小结  49-50
第四章基于文本平均相似度的K-Means算法  50-66
  4.1 K-Means算法的研究  50-55
    4.1.1 K-Means算法介绍  50-52
    4.1.2 K-Means算法的特点  52
    4.1.3 K-Means算法存在的问题  52-55
  4.2 K-Means对初始聚类中心的依赖性分析及现有改进  55-60
    4.2.1 依赖性分析  55-57
    4.2.2 选择初值的现有方法  57-60
  4.3 基于文本平均相似度的K-Means算法  60-65
    4.3.1 算法思想  61-62
    4.3.2 算法流程  62-63
    4.3.3 实验结果及分析  63-65
  4.4 本章小结  65-66
第五章文本聚类在公安情报系统中的应用  66-76
  5.1 公安情报系统简介  66-68
  5.2 舆情采集及处理  68-70
    5.2.1 舆情采集  69
    5.2.2 舆情处理  69-70
  5.3 文本聚类子系统  70-75
    5.3.1 文本聚类子系统的设计  70-72
    5.3.2 文本聚类子系统的实现  72-75
  5.4 本章小结  75-76
第六章总结与展望  76-78
  6.1 总结  76-77
  6.2 展望  77-78
参考文献  78-82
致谢  82-83
攻读硕士学位期间发表的学术论文  83

相似论文

隐式用户兴趣挖掘的研究与实现,TP311.13
基于停用词处理的汉语语音检索方法,TP391.1
基于SVM分类算法的主题爬虫研究,TP391.3
K-means聚类优化算法的研究,TP311.13
基于遗传算法和粗糙集的聚类算法研究,TP18
演化聚类算法及其应用研究,TP311.13
基于机器视觉的车辆检测和车距测量方法研究,TP274
Web使用挖掘与网页个性化服务推荐研究,TP311.13
基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
基于本体的食品投诉文档文本聚类研究,TP391.1
应用于搜索引擎的人物分类系统设计与实现,TP391.3
面向汽车行业的主题爬虫研究与实现,TP391.3
面向短消息文本的聚类技术研究与应用,TP391.1
教育新闻热点话题发现系统的设计与实现,TP391.1
基于树型条件随场的特定域事件提取方法研究,TP391.1
网络教育新闻文本分类系统的设计与实现,TP391.1
面向论坛信息文本的有效数据抽取研究,TP391.1
K-means算法在网店代购点选择中的应用研究,F224
Web新闻热点发现系统的设计与实现,TP393.09
高校图书馆管理系统的个性化服务的设计与实现,TP311.52
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09