学位论文 > 优秀研究生学位论文题录展示
模糊聚类算法及其在中文文本聚类中的研究与实现
作 者: 姜伦
导 师: 丁华福
学 校: 哈尔滨理工大学
专 业: 计算机应用技术
关键词: 聚类分析 模糊聚类算法 进化策略 模糊C-均值聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 96次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,伴随着互联网络的快速发展与壮大,各种各样形式的信息也随之而来,在为用户提供大量信息的同时,也给用户从中获取有价值的信息增加了更多的困难。因此如何能够从如此众多的信息中获取到对用户有价值的信息已经成为了当今重要的研究课题。在众多信息中,信息量以文本形式存在的方式最为常见,因此,文本处理已经成为用户获取有价值信息的重要手段。其中,模糊聚类算法也已成为文本处理研究的热点问题之一。目前,经典的FCM算法是比较常用的模糊聚类算法之一,此算法具有较好的理论基础支持,在文本处理和模糊识别等方面都得到了广泛的应用。但是,经典的FCM算法也存在三方面缺点(1)该算法对孤立点数据比较敏感。(2)算法的效果的好坏很大程度上取决于参数初值选取。(3)FCM算法容易陷入局部极值点,而得不到最优解。本文针对第一个缺点通过对数据的隶属度进行加权修改进行改进。本文通过构造模糊相似矩阵并结合统计学知识来解决第二个缺点,以达到良好的初始值选取的效果。对于第三个缺点,引入进化策略优化算法并结合了FCM构成混合型聚类算法使此类问题得以解决。通过以上的研究和改进的基础上,本文提出了新的模糊聚类算法NFCM和NES-FCM,并与经典的FCM算法进行了测试比较。通过实验结果表明新的模糊聚类算法NFCM和NES-FCM提高了聚类的精确性和有效性,并且充分发挥了FCM算法的局部搜索和全局搜索能力。最后,本文设计并实现了基于模糊聚类的中文文本聚类模型,并在该模型中对改进的模糊聚类算法进行了研究和应用,实验结果表明改进后的模糊聚类算法在中文文本聚类处理上具有良好的表现,同时表明了该中文文本模型是有效的。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-17 1.1 选题的研究背景和意义 10-11 1.2 文本聚类和文本分类 11-14 1.2.1 文本分类和文本聚类的差异 13-14 1.2.2 文本分类与文本聚类的共同点 14 1.3 文本聚类和分类的研究及进展 14-15 1.4 文本分类和聚类存在的难点及特点 15-16 1.5 本文的主要内容 16-17 第2章 聚类算法综述 17-27 2.1 聚类分析简介 17-18 2.2 主要聚类算法分类 18-24 2.2.1 基于划分的聚类方法 18-20 2.2.2 基于层次的聚类算法 20-22 2.2.3 基于密度的聚类算法 22-23 2.2.4 基于模型的聚类算法 23 2.2.5 基于网格的聚类算法 23-24 2.3 如何选择具体的聚类算法 24-26 2.3.1 聚类的类型 24 2.3.2 簇的类型及特征 24-25 2.3.3 噪声和离群点的考虑 25-26 2.3.4 数据对象的个数 26 2.4 本章小结 26-27 第3章 模糊理论与模糊聚类 27-33 3.1 模糊数学理论 27-28 3.2 模糊聚类分析 28-29 3.3 FCM 算法及研究状况 29-31 3.4 本章小结 31-33 第4章 模糊C 均值算法的改进研究 33-47 4.1 FCM 主要的改进方向 33 4.2 对于FCM 前2 个缺点的改进 33-39 4.2.1 通过加权后降低孤立点的影响 33-34 4.2.2 新的初始值优选方式 34-35 4.2.3 NFCM 算法的具体步骤 35-37 4.2.4 NFCM 与FCM 算法的实验结果比较 37-39 4.3 改变初始聚类原型的选取方式 39-40 4.4 基于进化策略优化算法的FCM 算法NES-FCM 40-46 4.4.1 进化策略算法的基本原理 40-42 4.4.2 进化策略算法的设计 42-43 4.4.3 用进化策略算法求解聚类问题 43-44 4.4.4 NES-FCM 算法 44-46 4.4.5 适应度函数 46 4.5 本章小结 46-47 第5章 基于模糊聚类的中文文本聚类的模型与实验结果分析 47-58 5.1 系统模型 47-48 5.2 系统实现及功能模块 48-51 5.3 实验设计方案 51-53 5.3.1 语料库 51-52 5.3.2 评价指标 52 5.3.3 性能分析 52-53 5.4 实验环境说明 53 5.5 实验过程及结论 53-57 5.6 本章小结 57-58 结论 58-60 参考文献 60-64 攻读硕士学位期间发表的学术论文 64-65 致谢 65
|
相似论文
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 云南省直管县改革研究,D630
- 基于分治法的聚类方法研究,TP311.13
- 三十种中成药元素含量分析及基于元素含量的中成药分类研究,R286.0
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 重庆文化产业竞争力研究,F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|