学位论文 > 优秀研究生学位论文题录展示

一种多数据流聚类异常检测算法

作 者: 江楠
导 师: 杨静
学 校: 哈尔滨工程大学
专 业: 计算机系统结构
关键词: 多数据流 聚类 离散小波变换 异常检测 局部离群点
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 27次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据流作为一种新型的数据模型,在许多应用诸如网络流量管理、金融数据处理、交通治理以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天,多数据流处理问题给研究人员带来了新的挑战:一方面,由于多数据流既要求保留数据流的无限和快速等特性,还需要利用有限的系统资源减少多数据流不确定性因素对挖掘过程造成的影响;另一方面,由于多数据流之间具有相关性,其处理技术则要求不仅关注一条数据流的流量变化,同时还需要根据大量数据流之间的相关性进行研究。因此仍存在许多问题尚待解决,学术界对多数据流的聚类分析和异常检测问题进行广泛的研究。本文主要研究基于聚类的多数据流异常检测问题,首先总结数据流挖掘的相关理论;对现有的聚类算法进行详细的分类介绍。结合多数据流的特点,总结多数据流聚类的研究方向和现有的异常检测的方法,分析了多数据流异常检测存在的难点和面临的挑战。在分析了聚类的多数据流异常检测所存在问题的基础上,本文设计了一种性能较好的多数据流异常检测算法。该算法首先对多数据流进行预处理,根据数据流序列的相关度特征运用离散小波变换,得到压缩的流序列,降低了系统内存存储需求,加快了计算机处理的时间;建立了改进的相似度矩阵,提高了聚类结果的准确率;通过计算每个数据点的局部可达密度,对核心对象进行标记,从而实现基于密度的聚类,生成任意形状的聚类;最后对聚类产生的被定义为噪声的集合,进行增量的LOF计算,根据设定的离群点阈值,判断多数据流中的异常。本文在聚类的同时,运用离群点检测算法实现对多数据流的异常检测。实验结果表明,本算法在聚类的同时可以更好的发现异常,且与DBSCAN算法相比,时间效率得到了提高,得到更好的异常检测效果。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-15
  1.1 论文研究的背景  10-11
  1.2 国内外研究现状  11-13
    1.2.1 多数据流聚类算法研究  11-12
    1.2.2 多数据流异常检测  12-13
  1.3 论文的研究内容  13-14
  1.4 论文的组织结构  14-15
第2章 多数据流聚类分析及异常检测  15-32
  2.1 数据流研究的关键问题  15-17
    2.1.1 数据流模型  15
    2.1.2 数据流类型  15-16
    2.1.3 数据流概要数据结构  16-17
  2.2 多数据流聚类  17-25
    2.2.1 传统的聚类算法  17-20
    2.2.2 数据流的压缩处理  20-24
    2.2.3 多数据流聚类的研究方向  24-25
  2.3 离群点异常检测  25-31
    2.3.1 分类的离群点检测  25-26
    2.3.2 聚类的离群点检测  26-28
    2.3.3 近邻的离群点检测  28-29
    2.3.4 多数据流异常检测技术和面临的挑战  29-31
  2.4 本章小结  31-32
第3章 聚类的多数据流异常检测  32-47
  3.1 问题的提出  32
  3.2 基于聚类的多数据流异常检测算法  32-46
    3.2.1 离散小波的多数据流预处理  34-38
    3.2.2 改进的基于密度流聚类  38-41
    3.2.3 多数据流离群点检测  41-43
    3.2.4 算法描述及性能分析  43-46
  3.3 本章小结  46-47
第4章 实验与结果分析  47-53
  4.1 实验设置  47
  4.2 算法的性能分析  47-52
    4.2.1 聚类效果  49
    4.2.2 异常检测效果  49-52
  4.3 本章小结  52-53
结论  53-54
参考文献  54-58
攻读硕士学位期间发表的论文和取得的科研成果  58-59
致谢  59

相似论文

  1. 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 图像分割中阴影去除算法的研究,TP391.41
  4. 基于图分割的文本提取方法研究,TP391.41
  5. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  6. 高血压前期证候特征研究,R259
  7. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  8. K-均值聚类算法的研究与改进,TP311.13
  9. 大学生综合素质测评研究,G645.5
  10. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  11. 基于核方法的高光谱图像异常检测算法研究,TP751
  12. 21个荷花品种遗传多样性的ISSR分析,S682.32
  13. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  14. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  15. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  16. 南通市农业面源污染负荷研究与综合评价,X592
  17. 土壤环境功能区划研究,X321
  18. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  19. 大豆杂种优势及其遗传基础研究,S565.1
  20. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  21. 人工免疫分类和异常识别算法的改进,R392.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com