学位论文 > 优秀研究生学位论文题录展示

基于Web文本的聚类算法的应用研究

作　者: 许英杰
导　师: 孙俊逸
学　校: 湖北工业大学
专　业: 计算机应用技术
关键词: Web文本特征选择遗传算法孤立点聚类
分类号: TP18
类　型: 硕士论文
年　份: 2009年
下　载: 110次
引　用: 1次
阅　读: 论文下载

内容摘要

随着因特网的讯速发展,互联网的数据信息量越来越大。如何对互联网的信息进行分析,便捷准确的挖掘出需要的信息知识急需解决。对聚类分析的研究可在相当程度上解决这个问题,不仅可以节省时间,并且可以提高效率。将聚类研究理论用于Web挖掘具有深刻的理论意义和重要的实际价值。本文从理论和实践两个方面分析与研究了聚类技术在Web文本挖掘中的应用。Web文本挖掘涉及众多领域的重要内容,包括:数据挖掘、信息检索、智能算法等。而本文研究的文本聚类技术是其中的重要内容之一,它不仅是一种非指导学习方法,而且不需干涉,可由计算机自动处理。本文研究的重点是通过文本聚类技术对中文文本对象进行聚类操作,首先有侧重点的对挖掘过程中的重要阶段进行研究,主要包含文本的预处理阶、聚类分析阶段。在预处理阶段,根据特征选取的特点,利用遗传学的基本知识采用一种基于遗传策略的特征选取方法。它可以在非监督学习的情况下对用特征向量来表示的文本个体进行降维操作,可以起到降低聚类算法的复杂度,保证聚类精度的作用。在聚类算法阶段,通过比较各种聚类算法的优缺点,重点分析了经典的K-means算法,然后提出一种对孤立点先检测再提取最后归并的改进K-means(WIPD)算法。改进的WIPD算法首先遍历整个样本数据集,找出所有的孤立点等异常数据进行提取,接下来对提取后的样本集进行聚类,在处理时采用自适应策略与基于最大距离的聚类中心相结合的选取方法,在相当程度上避免了聚类结果陷入局部最优的局面,在聚类完成后再将这些孤立点整理后归并入聚类结果当中,从而确保聚类结果的完整性,排除孤立点对聚类结果的影响。通过在matlab平台的实验证明改进的WIPD算法具有优良的属性,并且新算法具有的特点比原算法要好的多。最后,本文将改进前后的聚类算法应用到实际的系统当中,实现了中文Web文本聚类的整个过程,通过系统和实验证明了新算法的可行性和有效性。

全文目录

摘要  4-5
ABSTRACT  5-9
第1章绪论  9-13
  1.1 研究背景  9-10
  1.2 课题研究的意义  10
  1.3 Web 文本聚类面对的挑战  10-11
  1.4 本文的主要内容结构  11-13
第2章相关概念  13-17
  2.1 数据挖掘  13-14
    2.1.1 数据挖掘特点  13
    2.1.2 数据挖掘常用方法  13-14
  2.2 WEB文本挖掘  14-15
    2.2.1 Web 挖掘  14
    2.2.2 文本挖掘简介  14-15
  2.3 数据标准化  15
  2.4 文本表示  15-16
    2.4.1 向量空间模型  15-16
    2.4.2 特征抽取  16
  2.5 本章小结  16-17
第3章 WEB 文本挖掘技术  17-22
  3.1 WEB文本挖掘的过程  17-18
  3.2 WEB 文本预处理技术  18-21
    3.2.1 Web 文本去噪  18
    3.2.2 中文文本分词  18-19
    3.2.3 文本特征表示  19-20
    3.2.4 文本特征选取  20-21
  3.3 本章小结  21-22
第4章基于遗传策略的特征选取方法  22-29
  4.1 遗传算法  22
  4.2 基于遗传策略的特征选取方法  22-27
    4.2.1 基本思想  22-23
    4.2.2 算法的基本流程  23-27
  4.3 实验分析  27-28
  4.4 本章小结  28-29
第5章基于文本的聚类算法的改进与应用  29-48
  5.1 文本聚类  29-32
    5.1.1 聚类的研究属性  29-30
    5.1.2 文本聚类的特点  30-32
  5.2 文本聚类算法的比较  32
  5.3 聚类算法的比较  32-33
  5.4 K-means 算法分析  33
    5.4.1 K-means 算法  33
    5.4.2 经典K-means 算法的局限性  33
  5.5 改进 K-means(WIPD)算法  33-39
    5.5.1 基本思想  33-34
    5.5.2 检测提取孤立点阶段  34-36
    5.5.3 聚类阶段  36-37
    5.5.4 整理阶段  37
    5.5.5 算法步骤  37-39
    5.5.6 改进K-means 算法聚类流程  39
  5.6 实验与分析  39-41
    5.6.1 聚类性能评价指标  39-40
    5.6.2 文本数据聚类实验  40-41
  5.7 改进后聚类算法的原型系统的实现实验论证  41-47
    5.7.1 实现环境  41
    5.7.2 数据集的选取  41-42
    5.7.3 评价方法  42-47
  5.8 本章小结  47-48
第6章总结与展望  48-49
参考文献  49-53
致谢  53-54
附录  54

相似论文

天然气脱酸性气体过程中物性研究及数据处理,TE644
压气机优化平台建立与跨音速压气机气动优化设计,TH45
隐式用户兴趣挖掘的研究与实现,TP311.13
基于仿生模式识别的文本分类技术研究,TP391.1
图像分割中阴影去除算法的研究,TP391.41
唇读中的特征提取、选择与融合,TP391.41
基于图分割的文本提取方法研究,TP391.41
牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
高血压前期证候特征研究,R259
高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
K-均值聚类算法的研究与改进,TP311.13
部队人员网上训练与考核系统的开发,TP311.52
大学生综合素质测评研究,G645.5
基于并行算法的模糊综合评价模型的设计与应用,TP18
基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
21个荷花品种遗传多样性的ISSR分析,S682.32
基于遗传算法的中短波磁天线的设计及实现,TN820
基于遗传算法的柑橘图像分割,TP391.41
基于聚类分析的P2P流量识别算法的研究,TP393.02