学位论文 > 优秀研究生学位论文题录展示
面向高维数据的变密度空间聚类研究
作 者: 王东波
导 师: 胡学钢
学 校: 合肥工业大学
专 业: 计算机软件与理论
关键词: 数据挖掘 聚类 基于密度聚类 高维 变密度
分类号: TP18
类 型: 硕士论文
年 份: 2007年
下 载: 203次
引 用: 1次
阅 读: 论文下载
内容摘要
伴随着信息技术的飞速发展和广泛应用,海量的高维数据被冗余地存储,如何从数据的沙漠中挖掘出宝贵的知识业已成为当前最迫切的需求。聚类(Clustering)分析作为数据挖掘领域中的一个重要分支,研究从海量未知数据中挖掘出有用的知识,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。然而,现实世界中数据的高维、分布稀疏及不可避免的噪声普遍存在,特别是数据的变密度分布,使得传统聚类算法难以使用。为此,设计能高效处理变密度高维数据的聚类模型和算法成为本文的研究核心。本文的主要工作如下:(1)深入探讨和分析了聚类分析的概念、要求及所用数据类型,详细介绍各聚类方法的思想、原理及实现,及其各自的优势与存在的不足。(2)针对基于密度聚类算法的优势及其存在的不足和缺陷,引入层次树模型描述子聚类信息并利用基于密度的聚类思想进行聚类探测,形成算法DCHT。算法不仅具备基于密度聚类的优势性能,而且从根本上摒除该类算法因结构设计粗糙而导致的种种不足。(3)针对传统聚类方法难以处理变密度空间聚类的现状,引入改进的层次树结构描述数据集分布信息,并动态、自适应地调整局部参数来处理变密度高维聚类难题,形成SVC算法。理论和实验共同验证了以上所提两种算法的有效性和高效性。
|
全文目录
摘要 5-6 Abstract 6-12 第一章 绪论 12-23 1.1 数据库知识发现 12-16 1.1.1 KDD的提出 12-13 1.1.2 KDD的定义和处理过程 13-15 1.1.3 KDD的特性 15-16 1.2 数据挖掘 16-22 1.2.1 数据挖掘的定义 16 1.2.2 数据挖掘的对象 16-17 1.2.3 数据挖掘的功能 17-18 1.2.4 数据挖掘的方法 18-21 1.2.5 数据挖掘面临的挑战及研究热点 21 1.2.6 数据挖掘的发展方向 21-22 1.3 本文的研究内容与组织 22-23 第二章 数据挖掘中的聚类分析 23-36 2.1 聚类分析概述 23-26 2.1.1 聚类的概念和应用 23-25 2.1.2 聚类分析的典型评价指标 25-26 2.2 聚类分析中的数据类型 26-32 2.2.1 基本数据结构 26-27 2.2.2 区间标度变量 27-28 2.2.3 二元变量 28-30 2.2.4 标称、序数和比例标度变量 30-31 2.2.5 混合类型的变量 31-32 2.3 主要聚类方法概述 32-35 2.3.1 划分方法(Partitioning Methods) 32-33 2.3.2 层次方法(Hierarchical Methods) 33 2.3.3 基于密度的方法(Density-Based Methods) 33-34 2.3.4 基于网格的方法(Grid-Based Methods) 34 2.3.5 基于模型的方法(Model-Based Methods) 34-35 2.4 小结 35-36 第三章 面向高维数据的聚类研究 36-45 3.1 高维聚类研究现状 36-39 3.1.1 基于密度的聚类算法 36-38 3.1.2 改进工作 38-39 3.2 基于层次树的高效密度聚类算法 39-42 3.2.1 相关定义 39-40 3.2.2 算法描述 40-42 3.3 算法性能分析 42 3.4 实验结果 42-44 3.5 本章小结 44-45 第四章 变密度空间聚类研究 45-59 4.1 变密度聚类的研究意义 45-46 4.2 变密度聚类的研究现状 46-47 4.3 SVC聚类算法 47-53 4.3.1 相关定义 47 4.3.2 SVC算法描述 47-53 4.4 性能分析及实验结果 53-58 4.4.1 算法性能分析 54 4.4.2 实验结果 54-58 4.5 本章小结 58-59 第五章 结束语 59-61 5.1 已完成工作 59-60 5.2 下一步工作 60-61 参考文献 61-67 研究生期间主要科研工作及成果 67-68 发表学术论文 68
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- Bicluster数据分析软件设计与实现,TP311.52
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|