学位论文 > 优秀研究生学位论文题录展示

K-means算法的改进研究

作 者: 汤叶青
导 师: 陈明
学 校: 首都师范大学
专 业: 计算机软件与理论
关键词: 聚类分析 K-means算法 遗传算法 改进K-means算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 2次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在当代,随着计算机网络与数据库技术的发展,信息量变的越来越大,如何在海量的数据中找到有用的信息成为了一个非常重要的课题,数据挖掘技术在这种背景下应运而生。数据挖掘就是从大量的数据资料中发现有用的信息或知识,为科学决策提供依据。聚类分析技术是数据挖掘的一个重要的分析手段,是一种无监督的分类方法。聚类分析是在没有先验知识的情况下,将一个数据集划分成几个簇,使得相同簇中的数据特征尽可能相同,不同簇间的数据特征尽可能相异。目前聚类的算法很多,其中K-means算法因为思想简单,算法简洁,收敛性好成为应用最广最受欢迎的方法之一。然而K-means算法也有很多不足,如聚类结果对初始中心敏感,k值无法确定等。针对以上缺点,本文提出了一种改进的K-means算法和一种K值学习算法。改进的K-means算法是为了解决传统K-means算法的聚类结果对初始聚类中心敏感这一问题,同时提高算法的性能。改进算法主要是针对聚类数已知的聚类问题,只需用户输入k值就能执行。算法通过计算数据集中的各个数据点到原点的距离,然后按照距离大小排序,将数据集平均分成k组,之后将每组的中间的数据点选为初始中心。在将数据分配到各簇的操作中,通过优化处理大大减少了算法的时间复杂度。K值学习算法是为了解决传统K-means算法不能确定k值的缺点。在该算法中,引入了遗传算法。遗传算法是一种通过模拟自然界生物进化过程的随机化搜索方法,根据适应度函数,通过自然选择,交叉重组以及变异等遗传操作不断迭代更新种群以搜索到最优解。在本文的K值学习算法中,使用二进制编码,让每个个体代表一个k值,根据适应度函数,不断通过遗传操作进行迭代找到最佳聚类数。本算法采用了自适应的交叉概率和变异概率以加快算法的收敛性。最后通过两组实验分别测试改进K-means算法和K值学习算法的有效性。在第一组实验中,对五组数据分别执行传统K-means算法和改进K-means算法,从聚类结果和所耗时间上对两种算法进行比较;在第二组实验中对五组数据分别执行K值学习算法。实验表明改进K-means算法能够以更少的时间得到更好的聚类结果,通过K值学习算法寻找最佳聚类数非常可行。

全文目录


相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  4. 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
  5. 部队人员网上训练与考核系统的开发,TP311.52
  6. 大学生综合素质测评研究,G645.5
  7. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  8. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
  14. 土壤环境功能区划研究,X321
  15. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  16. 大豆杂种优势及其遗传基础研究,S565.1
  17. 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
  18. K-means聚类优化算法的研究,TP311.13
  19. 基于遗传算法和粗糙集的聚类算法研究,TP18
  20. 基于分治法的聚类方法研究,TP311.13
  21. 三十种中成药元素含量分析及基于元素含量的中成药分类研究,R286.0

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com