学位论文 > 优秀研究生学位论文题录展示
结合蚁群算法与基于划分的DBSCAN聚类算法的研究
作 者: 李静
导 师: 姜华
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 聚类 基于密度聚类 DBSCAN 优化算法 蚁群聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 0次
阅 读: 论文下载
内容摘要
聚类算法是一种无监督的算法。它是一种将分散着的数据对象划分到相应的类当中的过程。在聚类之后,同一个类当中的数据对象及其相似的,相反,在不同类当中的数据对象则尽可能不相似。基于密度的聚类算法能够根据数据对象临近区域的密度将数据对象聚集到一起。DBSCAN聚类算法是经典的基于密度聚类算法之一。它能够发现任意形状的簇,并且只需要两个全局参数Eps和Minpts。DBSCAN被证明对于复杂的数据集和大规模数据都有较好的处理能力。但是,当数据集不断增大的时候,DBSCAN聚类算法需要较高的内存和I/O支持。并且算法对高维的和复杂形状的数据处理能力较差。因此,基于划分的DBSCAN聚类算法(PDBSCAN)被提出用于解决经典的DBSCAN算法的一些缺点。但是当数据集密度不均匀的时候,PDBSCAN聚类算法效果仍然很差。总的来说,DBSCAN与PDBSCAN算法都对初始参数很敏感。本研究采用将蚁群优化算法与基于密度划分的DBSCAN聚类算法结合(即PACA-DBSCAN)来提高聚类效果。算法首先采用改进的蚁群聚类算法(ACA)和本文提出的基于密度划分的方法来对数据集进行初始化,将数据集划分成N个数据子集。之后再采用DBSCAN聚类算法对每一个数据子集进行聚类。本文通过五个数据集来说明PACA-DBSCAN的聚类结果优于DBSCAN和PDBSCAN算法。另外还利用两个经典的数据集来横向的将PACA-DBSCAN与ACA和KHM等算法进行比较,实验表明PACA-DBSCAN算法效果优于其他类型聚类算法。
|
全文目录
摘要 4-5 Abstract 5-8 引言 8-9 第一章 绪论 9-12 1.1 研究背景及意义 9-10 1.2 国内外研究现状 10 1.3 本文研究的内容及结构 10-12 1.3.1 本文研究的内容 10-11 1.3.2 本文结构 11-12 第二章 数据挖掘以及聚类算法概述 12-21 2.1 数据挖掘概述 12-13 2.2 数据挖掘方法 13-14 2.3 聚类算法概述 14-17 2.3.1 聚类算法的基本概念 14-15 2.3.2 聚类算法的定义 15-16 2.3.3 聚类的相似性度量 16-17 2.4 聚类分析的主要算法 17-21 2.4.1 划分方法(Partitioning Method) 17 2.4.2 层次方法(Hierarchical Method) 17-18 2.4.3 基于密度的方法(Density-based Method) 18-19 2.4.4 基于网格的方法(Grid-based Method) 19 2.4.5 基于模型的方法(Model-based Method) 19 2.4.6 其他聚类方法 19-21 第三章 优化算法以及蚁群算法 21-26 3.1 优化算法概述 21 3.2 蚁群算法概述 21-22 3.3 基于蚁群觅食原理的蚁群算法 22 3.4 基于蚁堆形成原理的蚁群算法 22-26 3.4.1 蚁堆算法概念 22-24 3.4.2 蚁堆算法的流程 24-26 第四章 蚁群算法和基于划分的DBSCAN 算法结合 26-38 4.1 DBSCAN(A density-based)聚类算法 26-27 4.2 基于划分的 DBSCAN 算法 PDBSCAN ( Partitioning-based DNSCAN algorithm) 27-29 4.2.1 合并聚类结果 27-28 4.2.2 将噪声点合并到簇 28 4.2.3 合并噪声点 28-29 4.3 PDBSCAN 聚类算法的缺点 29-30 4.4 结合蚁群算法的基于密度划分 DBSCAN 聚类算法 30-32 4.4.1 基于点密度的划分方法 30 4.4.2 基于改进的蚁群算法的划分方法 30-31 4.4.3 结合蚁群算法的基于密度划分 DBSCAN 聚类算法(PACA- DBSCAN) 31-32 4.5 试验结果及分析 32-38 4.5.1 数据集 32-33 4.5.2 实验结果 33-38 第五章 结束语 38-39 参考文献 39-42 致谢 42-43 在学期间公开发表著作和论文情况 43
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 基于粒子群算法求曲线/曲面间最小距离方法,O182
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 药品扩散中的优化控制及其数值方法,R91
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|