学位论文 > 优秀研究生学位论文题录展示

离群点预处理及检测算法研究

作 者: 王雪英
导 师: 朱焱
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 离群点检测 离群点类型 奇异值分解 近邻 离群点挖掘系统
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 99次
引 用: 3次
阅 读: 论文下载
 

内容摘要


离群点检测主要应用于数据清洗与数挖掘两个方面,其作用就是发现数据的“小众模式”,即数据集中显著不同于其它数据的对象。在现实中,一个人的噪音可能是另一个人的信号。在很多应用中,例外事件常常比普通事件更有趣、也更有研究价值,因此离群点数据的检测和分析是一项重要且有意义的研究工作。但现有的离群点检测算法仅能识别可疑数据,不能确定是否是“有意义”的离群点,离群点检测算法在高维数据挖掘过程中性能有所下降。因此本文针对这些问题进行了探讨和研究。首先,本文从离群点检测的现实意义、算法、应用领域等各个方面对离群点检测问题进行了综述,分析了现实数据存在的问题,总结了针对不同数据问题所采用的处理方法。针对当前离群点检测算法只能识别可疑数据,不能识别出是否是“有意义”的离群点这一缺陷,提出采用二次挖掘方法与模型法区分“噪声”与“有意义”离群点。其次,论文对离群点挖掘技术进行了介绍,总结了当前离群点挖掘技术:研究了基于近邻的离群点挖掘算法,对基于近邻的DB(p,D)-离群点挖掘算法,k-近邻算法(KNN)及LOF(Local Outlier Factor)算法的优缺点进行了比较:针对高维数据之间的距离尺度和区域密度不再具有直观的意义及算法挖掘的正确率下降等问题,本文采用基于奇异值分解的方法约减数据维度,实现高维数据到低维空间的映射,然后再用k-近邻法及LOF算法进行离群点的挖掘。然后,将基于奇异值预处理的离群点挖掘法与直接运用离群点挖掘算法进行离群点挖掘的检测率、误报率及时间代价进行比较,挖掘结果的正确率明显提高,误报率及时间代价相对较小。文中对二次挖掘法与模型法进行了仿真实验。最后实现了一个离群点挖掘系统,其中集成了DB(p,D)-离群点检测算法、基于密度的局部离群点因子检测算法、k-近邻的离群点检测算法、基于奇异值分解的数据预处理及离群点检测算法,并对离群点挖掘的结果运用平行坐标图进行合理性分析。

全文目录


摘要  6-7
Abstract  7-11
第1章 绪论  11-19
  1.1 研究背景与研究意义  11-14
    1.1.1 研究背景  11-13
    1.1.2 研究意义  13-14
  1.2 研究现状  14-18
    1.2.1 国外研究现状  14-17
    1.2.2 国内研究现状  17-18
  1.3 本文研究内容  18
  1.4 论文的组织结构  18-19
第2章 数据质量与离群点  19-28
  2.1 数据预处理  19-21
    2.1.1. 现实数据存在的问题  19-20
    2.1.2. 数据处理策略  20-21
  2.2 区分噪声与"有趣模式"离群点  21-25
    2.2.1 离群点的分类  22
    2.2.2 模型法  22-24
    2.2.3 二次挖掘法  24-25
  2.3 离群点类型  25-27
    2.3.1 单点离群点  25
    2.3.2 语境离群点  25-27
    2.3.3 集体离群点  27
  2.4 本章小结  27-28
第3章 离群点挖掘技术介绍  28-34
  3.1 归纳学习与离群点检测技术  28-29
    3.3.1 有监督的离群点检测  28
    3.3.2 半监督的离群点检测  28-29
    3.3.3 无监督的离群点检测  29
  3.2 离群点挖掘方法  29-33
  3.3 本章小结  33-34
第4章 基于近邻的离群点检测算法的研究  34-53
  4.1 基于距离的离群点检测算法  35-38
  4.2 k-近邻的离群点检测算法  38-41
  4.3 基于密度的局部离群点检测算法  41-46
  4.4 基于奇异值分解的维度约减  46-51
  4.5 本章小结  51-53
第5章 离群点检测系统的实现及结果分析  53-74
  5.1 离群点挖掘系统的实现  53-56
    5.1.1 系统结构  53-54
    5.1.2 系统过程  54-56
  5.2 实验数据集  56-58
    5.2.1 Wisconsin乳腺癌数据集  56-58
    5.2.2 ionosphere数据集  58
  5.3 实验过程及结果分析  58-69
    5.3.1 离群点检测算法的评价标准  58-59
    5.3.2 Wisconsin乳腺癌数据集  59-62
    5.3.3 ionosphere数据集  62-66
    5.3.4 实验结论  66
    5.3.5 挖掘结果的合理性分析  66-69
  5.4 二次挖掘法识别噪声  69-71
  5.5 模型法识别噪声  71-72
  5.6 本章小结  72-74
结论与展望  74-76
致谢  76-77
参考文献  77-81
攻读硕士学位期间发表的论文  81-82

相似论文

  1. 机载导弹的传递对准研究,V249.322
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  4. 主观题自动评分技术研究,TP391.1
  5. 基于核回归与非局部方法的图像去噪研究,TP391.41
  6. 面向主题型的网页分类技术的研究与实现,TP393.092
  7. Web新闻热点发现系统的设计与实现,TP393.09
  8. P2P流量识别方法研究,TP393.06
  9. 膜蛋白跨膜螺旋结构预测研究,Q51
  10. 基于子空间分析的扩频通信窄带干扰抑制研究,TN914.42
  11. 新闻视频故事单元分割,TP391.41
  12. 面向设计重用的设计资源动态调度技术及应用研究,TB47
  13. 基于奇异值分解的信号处理方法及其在机械故障诊断中的应用,TH165.3
  14. 面向学科的文献资源聚类系统研究及应用,TP391.1
  15. 基于子空间分析的人脸识别算法研究,TP391.41
  16. 基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4
  17. 模式分类中数据选择方法的研究,TP391.4
  18. 基于DWT和SVD的数字水印算法,TP309.7
  19. MIMO-OFDM系统中自适应资源分配算法的研究,TN919.3
  20. 基于空间状态八叉树的点云模型表面重建方法,TP391.41
  21. 面向审计领域的聚类离群点检测研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com