学位论文 > 优秀研究生学位论文题录展示
基于数据密度估计的聚类与离群点检测研究
作 者: 何威
导 师: 于剑
学 校: 北京交通大学
专 业: 计算机科学与技术
关键词: 数据密度估计 山峰算法 聚类初始点选择 离群点检测
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 51次
引 用: 0次
阅 读: 论文下载
内容摘要
计算机科学发展至今,已可以通过数值计算来帮助人类分析问题并做出适当的决策。同时存储技术和数据采集技术的进步,使人们可以收集保存大量的数据。如何利用这些数据得到知识成为近年研究的热点。数据挖掘技术是利用数据得到新的潜在有用的知识的有力工具。统计分析技术是数据挖掘的重要基础理论之一。而概率密度估计是统计分析技术的重要技术之一。因此,研究与密度估计有关的数据分析技术有重要意义。数据局部密度作为数据的一个重要特征,能够体现出数据内部结构状态,可有效帮助人类理解数据的结构。因此,具有严谨数学基础的概率密度估计算法是数据挖掘领域常用的分析方法,经过科研工作者的多年研究,大量数据密度估计算法已经广泛应用在聚类,分类,离群点检测,数据压缩等研究领域。数据密度估计算法的基本假设为:如果数据观测值遵从某种分布规律,那么估计得到数据对应的概率密度可以推测数据具有的某种规律。数据密度大的地方对应数据的类中心区域,数据密度小的地方代表类边界,或者例外点或者离群点。这两种情况对应着数据挖掘领域的聚类和离群点检测,显然这两个研究方向是可以在数据密度估计的层次上统一到同一个框架中。本文通过研究已有的数据密度估计算法,提出了一种新的自适应的数据密度估计方法,与以往的算法相比,可以增加类内数据的相似度,减少类间的相似度,更好的发现数据内部结构,在FCM聚类初始点选择和离群点检测领域得到了有效的应用。在聚类方面,提出的算法可以通过寻找数据内密度最大点来给出类中心的估计值,为FCM算法提供有效的初始类中心点估计,理论分析和实验表明我们给出的类中心点估计可以得到比随机取类初始点更好的聚类结果。在离群点检测方面,根据普遍使用的密度假设,离群点数据密度低于正常数据点,而我们算法可以检测数据中密度显著低于类内部的数据点,即为离群点。本文算法计算过程简单,时间复杂度低,参数少,经过在公开数据集上的测试,理论与试验效果均好于经典算法。
|
全文目录
致谢 5-6 摘要 6-7 ABSTRACT 7-9 1 绪论 9-13 1.1 引言 9 1.2 研究现状 9-12 1.2.1 聚类 9-10 1.2.2 离群点检测 10-12 1.3 本文的主要工作与组织结构 12-13 2 基于密度的数据分析 13-31 2.1 无参数概率密度估计 13-19 2.2 山峰聚类算法 19-20 2.3 局部尺度化 20-22 2.4 自适应数据密度估计 22-28 2.5 证明与讨论 28-31 3 聚类 31-38 3.1 模糊C均值 31-32 3.2 Single-Linkage 32-33 3.3 基于数据密度的聚类中心估计算法 33 3.4 试验结果与分析 33-38 3.4.1 人造数据试验 33-35 3.4.2 实际数据试验 35-38 4 离群点检测 38-47 4.1 基于密度的离群点检测算法 38 4.2 基于近邻密度差别的离群点检测算法 38-39 4.3 基于数据密度估计的离群点检测 39-40 4.4 实验结果与分析 40-47 4.4.1 人造数据试验 40-43 4.4.2 实际数据试验 43-47 5 结束语 47-49 5.1 本文工作总结 47-48 5.2 进一步的工作 48-49 参考文献 49-51 作者简历 51-53 学位论文数据集 53
|
相似论文
- 面向审计领域的聚类离群点检测研究,TP311.13
- 离群点预处理及检测算法研究,TP311.13
- 移动对象聚类和空间离群点检测算法研究,TP311.13
- 基于不同属性数据流的离群数据挖掘算法的研究,TP311.13
- 基于高维空间的聚类技术研究,TP311.13
- 离群检测和非监督异常检测技术在网络入侵检测中的应用研究,TP393.08
- 非线性过程监测中的数据降维及相关问题研究,TP274
- 数据流分析关键技术研究,TP311.13
- 数据流离群点检测研究,TP311.13
- 高性能数据流模式发现算法及其应用研究,TP311.13
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 海量多数据库集成系统的查询处理研究,TP311.13
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 频繁图结构并行挖掘算法的研究与实现,TP311.13
- 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- K-均值聚类算法的研究与改进,TP311.13
- 基于流形学习的数据降维技术研究,TP311.13
- K-means聚类优化算法的研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|