学位论文 > 优秀研究生学位论文题录展示
密度影响因子相关的网格聚类算法研究
作 者: 阳斌
导 师: 李重
学 校: 浙江理工大学
专 业: 基础数学
关键词: 数据挖掘 聚类 网格 密度 网格密度影响因子 K均值
分类号: TP301.6
类 型: 硕士论文
年 份: 2014年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
数据挖掘是适应信息社会从海量数据中提取有价值信息的需要而产生的。聚类分析作为数据挖掘学科研究和应用的重要分支之一,它能从未被标记的数据中自动识别出具有一定相似性的数据组成的多个类。在各种聚类算法中,基于密度的算法能识别不同密度,任意形状的聚簇。但是密度聚类往往因为要设置全局参数,且参数不止一个,当遇到簇的密度变化差异很大时,聚类会遇到困难。而基于网格的聚类算法用网格代替对数据点的计算,提高了聚类处理速度,但是以牺牲精度为条件,网格划分的“粒度”大小影响着聚类的质量,粒度越小,聚类越精确,但是花费的代价越高;而粒度越大,聚类质量越粗糙。针对密度聚类和网格聚类的各自不足,本文考虑相邻网格的密度影响因子,提出了改进的聚类算法:基于网格密度影响因子的聚类算法(IFGDC)。算法的主要工作有:(1)通过划分数据空间将数据对象的聚类映射为网格单元的聚类,有效地降低了聚类操作的复杂度;(2)定义了基于网格相邻关系的一些概念,避免了传统的基于密度的算法中需要确定半径的不便;(3)提出了网格密度影响因子的概念,以便从高密度网格中确定核心网格;(4)并给出一种对簇边缘的边界点进行提取的方法,进一步提高了聚类准确性。最后,通过实验测试IFGDC聚类算法,验证了该算法的正确性和有效性。K-means聚类算法简单,成为聚类的经典算法。但是K-means聚类对参数敏感,依赖用户的经验选择聚类数目和初始聚类中心,易受噪声点干扰,而且算法结果依赖数据的输入次序。针对这些不足,本文提出了基于IFGDC的K-means改进算法。算法首先利用网格聚类的速度优势,对数据进行预处理,找到数据集的大致结构与分布,得到聚簇的类数k和代表各自簇的k个初始质心,然后利用这两个参数对数据集进行K-means聚类。实验结果表明,相比单纯地直接使用K均值聚类,改进的算法能提高参数k和初始质心选取的质量,减少对“噪音”的敏感性,算法结果确定,不依赖数据录入顺序,可以有效改进聚类效果。本文在最后对工作进行了总结,并对未来的工作进行了展望。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 绪论 8-12 1.1 研究背景和现状 8-9 1.2 研究意义和问题分析 9-10 1.3 本文主要研究内容和框架结构 10-12 第二章 数据挖掘与聚类分析概述 12-26 2.1 数据挖掘概述 12-17 2.2 数据与数据预处理 17-20 2.3 聚类分析概述 20-23 2.4 本章小结 23-26 第三章 基于网格密度影响因子的聚类算法 26-40 3.1 分析现有的基于密度、网格的聚类算法 26-29 3.1.1 基于密度的聚类算法介绍与分析 26-27 3.1.2 基于网格的聚类算法介绍与分析 27-28 3.1.3 网格和密度相结合的聚类算法 28-29 3.2 IFGDC 算法思想及相关定义 29-35 3.2.1 算法的思路 29-30 3.2.2 算法的相关概念 30-35 3.3 IFGDC 算法流程 35-36 3.4 算法分析和实验验证 36-39 3.4.1 算法复杂度分析 36 3.4.2 实验结果与算法比较 36-39 3.5 本章小结 39-40 第四章 基于 IFGDC 的 K-means 改进算法 40-53 4.1 K 均值算法研究与分析 40-43 4.1.1 K 均值算法原理 40-41 4.1.2 K 均值不足分析及相关改进 41-43 4.2 基于 IFGDC 的 K-means 改进算法 43-47 4.2.1 K 均值改进算法思路 43-45 4.2.3 K 均值改进算法 45-47 4.3 算法分析和实验验证 47-52 4.4 本章小结 52-53 第五章 总结与展望 53-55 5.1 全文总结 53 5.2 工作展望 53-55 参考文献 55-59 致谢 59-60 攻读硕士学位期间的研究成果 60
|
相似论文
- 带有多项式基的径向点插值无网格方法的研究及应用,O241
- 二甲醚在Pt低指数晶面吸附的密度泛函研究,O485
- 基于图的标志SNP位点选择算法研究,Q78
- 高灵敏度GNSS软件接收机的同步技术研究与实现,P228.4
- 基于超声波的泥浆密度测试机理的研究,TE256.7
- 熔融碳酸盐燃料电池内流动过程数值分析,TM911.4
- 电流及电场对结晶器铜板上电镀镍及其合金镀层性能的影响,TQ153.2
- BioLab面向生物计算服务的网格系统,TP399-C8
- 医学超声图像去噪方法研究,TP391.41
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 基于对数正态分布异方差模型的统计推断,O212.1
- 南通市农业面源污染负荷研究与综合评价,X592
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|