学位论文 > 优秀研究生学位论文题录展示
基于分治法的聚类方法研究
作 者: 贾俊芳
导 师: 李德玉
学 校: 山西大学
专 业: 系统工程
关键词: 聚类分析 分治法 分类属性数据 相似测度 评价指标
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
在数据挖掘中,聚类分析是一个重要研究方向,它研究的内容、方法和工具被广泛应用于现实生活中。比如金融诈骗、医疗事故诊断、图像处理、信息检索和生物科学等领域。近年来,聚类算法研究成为一个非常热门的研究领域并且取得了丰硕的成果。然而,随着科学技术的不断发展,数据规模不断的扩大,研究数据的属性也不单单是数值型数据,出现了分类数据和混合数据。针对高维大数集的特点数据分布具有稀疏性、噪声数据较多,当维度很高时,还可能出现“距离趋零现象”,即距给定数据点最远及最近的数据点间的距离差随着维度的增加日趋减小。由于分类属性数据缺少固定的几何模型,不能将原有的数值属性数据聚类算法应用于分类属性数据中。因此,分类属性数据聚类算法的研究引起了广泛地关注并被作为一项重要的研究内容。本文主要研究在模糊K-Means和模糊K-Modes聚类算法框架下,引入了分治法,对大数据集和分类属性数据聚类算法进行了扩充,研究成果如下:(1)基十分治法的大数据集聚类方法是将大规模数据集分成若干个子集,对每个子集同时聚类,最后对各个子集的聚类结果合并,得出最后的聚类结果。此方法克服了大规模数据数据量大、维数高可能出现的“距离趋零现象”的不足,同时由于将大规模数据分解为小规模的数据的聚类减少了聚类的复杂度。此方法在人造数据集上进行了实验,实验结果表明基于分治法的大数据集聚类方法是有效的。(2)基于分治法的分类数据集聚类方法是将分治法应用于模糊K-Modes聚类算法中,把庞大复杂的分类数据集分解为几个规模较小的子集进行聚类,最后把子集的聚类的结果进行融合得到最后的聚类结果。此方法克服了分类数据缺乏固有的几何模型而只是简单的0-1匹配相似性度量,由于数据规模庞大而造成的“距离趋零现象”的现象发生。此方法在UCI数据集上进行了验证,并与传统K-Modes和模糊K-Modes聚类算法进行了比较,实验结果说明了基于分治法的分类数据集聚类方法是有效的。本文提出了基于分治法的聚类算法,并在UCI数据集上对算法的有效性进行了验证。
|
全文目录
中文摘要 8-9ABSTRACT 9-11第一章 绪论 11-17 1.1 研究背景及意义 11-12 1.2 聚类分析中的数据类型 12-13 1.3 聚类算法的主要类别 13-15 1.3.1 层次聚类 13-14 1.3.2 划分聚类 14-15 1.4 聚类分析的应用领域 15-16 1.5 论文的组织结构 16-17第二章 K-MEANS聚类算法和K-MODES聚类算法 17-25 2.1 K-MEANS聚类算法 17-18 2.2 模糊K-MEANS聚类算法 18-19 2.3 K-MODES聚类算法 19-22 2.3.1 分类数据 20 2.3.2 简单匹配相异性测度 20 2.3.3 K-MODES聚类算法 20-22 2.4 模糊K-MODES聚类算法 22-25 2.4.1 模糊类的MODE 22-23 2.4.2 算法描述 23-25第三章 分治法简介 25-29 3.1 分治思想及分治步骤 25 3.2 适用分治策略解决地问题 25-26 3.3 分治算法框架 26 3.4 分治法的分割原则 26-29第四章 分治聚类算法 29-39 4.1 分治聚类算法 29 4.2 与K-MEANS,FCM的比较 29-33 4.2.1 性能分析 29-31 4.2.2 实验仿真 31-33 4.2.3 结论 33 4.3 与K-MODES、FKMD的比较 33-39 4.3.1 性能分析 33-34 4.3.2 实验结果 34-37 4.3.3 结论 37-39第五章 总结与展望 39-41参考文献 41-45攻读硕士期间发表的主要论文 45-47致谢 47-49个人简况及联系方式 49-53
|
相似论文
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高校绿色办公指标体系的设计与评价研究,G647
- 市级旅游用地规划环境影响评价研究,X820.3
- 高血压前期证候特征研究,R259
- 改进的主成分分析方法在学科建设中的应用,G642.4
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 高校体育教育专业健美操专修学生创编能力的评价指标体系构建,G831.3
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 公路生态系统健康评价方法研究,X826
- 土地生态安全评价指标体系研究,X826
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 县域建设用地集约利用评价研究,TP319
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 高校本科教学团队建设水平评价指标体系的构建研究,G647
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 灌区干旱评价系统研究,S423
- 基于比较优势理论的江苏省种植模式优势度评价,S344
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|