学位论文 > 优秀研究生学位论文题录展示

一种适应高速数据流的聚类算法研究

作 者: 高贺庆
导 师: 杨科华
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 数据流 数据挖掘 聚类 自适应 剪枝策略
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着通信技术和信息技术的飞速发展,人们逐渐意识到一些数据集中型的应用。在这些应用中,数据不再是传统上基于关系模型的静态数据,而是以转瞬即逝的数据流形式出现。上述这些应用包括:财务系统、网络监控、安全领域、通信数据管理、制造业、传感器网络等。海量数据流快速、实时、连续、有序达到。挖掘数据流中的潜在知识对传统数据挖掘算法提出了新的挑战。数据流聚类分析作为数据流挖掘中的一种重要的方法,近年来得到了越来越多的研究和关注。本文以高速带噪声的数据流为研究目标,设计并实现了一种准确、高效、适应任意时刻数据流聚类算法。为此论文主要做了以下方面的工作:首先介绍了课题的研究背景和意义,国内外研究现状。其次研究了数据流挖掘尤其是聚类分析方面相关的理论和技术,总结了主要的数据流聚类算法的优缺点。再次在前面工作的基础上,通过修改概要数据结构,设计了一种改进于近似搜索树(SimilaritySearch Tree)的任意时刻数据流聚类算法(Similarity Search with Micro-clusters Tree,SMCC-Tree)。该算法采用了两阶段算法框架,在线部分的微聚类采用带微簇的近似搜索树(SSMC-Tree)的数据结构,并引入了缓存、捎带处理策略。离线部分的宏聚类,在在线部分所得微簇的基础上,采用基于密度聚类方法,得到任意形状的微簇。由于在实际应用中产生的数据流具有很高的速度,为此在上述算法的基础上提出了一个局部聚类算法(LocalAggregate),在数据流对象插入树前进行预聚类。另外,为了解决数据流中的噪声问题,采用了一种离群点剪枝策略,在该策略中引入了潜在核心微簇队列和离群点微簇队列,周期性的移除离群点,从而保证聚类质量。最后,在名为MOA(Massive Online Analysis)的开源数据流聚类框架上设计和实现了上述算法,并在仿真的和真实数据集上进行了相关实验,结果表明,SSMC-Tree及其改进算法具有较好的准确性和高效性,能够适应高速的带噪声的数据流聚类,并在任意时刻得到聚类结果。

全文目录


摘要  5-6
Abstract  6-10
插图索引  10-11
附表索引  11-12
第1章 绪论  12-18
  1.1 研究背景和意义  12-13
  1.2 基本概念  13-14
    1.2.1 数据挖掘  13-14
    1.2.2 数据流  14
  1.3 研究现状  14-16
  1.4 本文的研究内容  16
  1.5 本文的组织结构  16-18
第2章 数据流挖掘理论和聚类算法概述  18-27
  2.1 有关数据流挖掘理论  18-20
    2.1.1 数据流模型  18-19
    2.1.2 数据流处理特点  19
    2.1.3 数据流挖掘的特点  19-20
  2.2 数据流聚类相关技术  20-21
    2.2.1 概要数据结构  20
    2.2.2 窗口技术  20-21
    2.2.3 时间衰减技术  21
  2.3 常见聚类方法概述  21-25
    2.3.1 基于划分的方法  21-22
    2.3.2 基于层次的方法  22-23
    2.3.3 基于密度的方法  23
    2.3.4 基于网格的方法  23-24
    2.3.5 基于模型的方法  24-25
  2.4 设计数据流算法的需求  25-26
  2.5 小结  26-27
第3章 基于 SSMC-Tree 的任意时刻数据流聚类  27-37
  3.1 问题提出  27-29
  3.2 基本概念  29-32
    3.2.1 近似搜索树  29-30
    3.2.2 SSMC-Tree  30-32
  3.3 基于 SSMC-Tree 的数据流聚类算法  32-36
    3.3.1 微簇的维护和更新  32-33
    3.3.2 SSMC-Tree 中的缓冲机制  33-34
    3.3.3 基于 SSMC-Tree 的数据流聚类算法  34-36
  3.4 小结  36-37
第4章 面向高速带噪声数据流的聚类  37-43
  4.1 问题提出  37-38
  4.2 基本概念  38-39
  4.3 面向高速带噪声数据流的聚类  39-42
    4.3.1 局部聚类算法  39-41
    4.3.2 插入算法  41-42
  4.4 小结  42-43
第5章 数据流聚类框架和实验  43-54
  5.1 MOA 框架概述  43-47
    5.1.1 MOA 框架提出背景  43-44
    5.1.2 MOA 的体系结构  44
    5.1.3 MOA 的聚类模块  44-47
  5.2 SCMC-Tree 及其改进算法实验结果分析  47-53
    5.2.1 实验配置  47
    5.2.2 扇出值的确定  47-48
    5.2.3 SSMC-Tree 算法的聚类质量  48-50
    5.2.4 SSMC-Tree 改进算法的聚类质量  50-51
    5.2.5 SSMC-Tree 改进算法针对高速数据流的性能  51-52
    5.2.6 SSMC-Tree 改进算法离群点处理性能  52-53
  5.3 小结  53-54
结论  54-57
参考文献  57-61
致谢  61-62
附录 A 攻读学位期间发表的学术论文  62-63
附录 B 攻读学位期间参与的科研项目  63

相似论文

  1. 陀螺稳定吊舱控制系统稳定回路设计与研究,V241.5
  2. 基于DSP的感应电机矢量控制系统研究,TM346
  3. 适应多总线通讯模式的感应电动机矢量控制系统研究,TM346
  4. 半导体激光器热电控制技术研究,TN248.4
  5. 基于视觉特性的视频编码技术研究,TN919.81
  6. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  7. 基于滑动相关双门限的扩频码同步捕获技术的研究,TN914.42
  8. 跳频通信系统中同步及频率自适应算法研究,TN914.41
  9. 基于纹理特征的视频编码技术研究,TP391.41
  10. 隐式用户兴趣挖掘的研究与实现,TP311.13
  11. 图像分割中阴影去除算法的研究,TP391.41
  12. 非线性变结构导引规律的研究,TJ765
  13. 一类欠驱动Lagrangian系统的最优同步控制,TP13
  14. 分导飞行器多模型自适应控制,TP273.2
  15. 自适应双重控制在垂直起降机中的应用研究,TP273
  16. 陀螺稳定吊舱控制系统设计,TP273
  17. 自适应模糊控制算法研究及其实现,TP273.4
  18. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  19. 图像引导下的宫颈癌自适应调强放射治疗,R737.33
  20. 基于数据挖掘技术的保健品营销研究,F426.72
  21. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com