学位论文 > 优秀研究生学位论文题录展示

大数据实时流式聚类处理框架研究

作 者: 李子柳
导 师: 李磊
学 校: 中山大学
专 业: 软件工程
关键词: 大数据 数据流 聚类框架 阶段性训练 概念漂移
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 319次
引 用: 0次
阅 读: 论文下载
 

内容摘要


云计算、物联网以及移动互联网的普及和推广,促使海量数据的产生。如何从海量的数据中快速挖掘和发现知识,成为了研究者和企业的重要的关注点。在Web2.0时代,众多的应用会实时地产生大量数据流,新型流式数据的处理也带来很大的挑战。这种新的数据呈现形式导致在处理的过程中必须要面临几个大的问题:数据仅能访问一次、计算资源有限、处理的近实时性。因此,在对大量数据流进行数据挖掘处理时,如何利用有限的计算资源对实时的数据流信息进行快速的处理是一个很大的挑战和难点。数据聚类是数据挖掘中的一个重要的研究方向,其旨在通过对数据进行聚类分析,将数据分成由类似对象组成的类别。然而,数据流这种新的数据形态使得传统的聚类方法无法被直接应用,故需要研究新的数据流处理框架和方案。现有的数据流处理框架,如CluStream的双组件框架,为数据流的处理提供了很好的基础,然而这些框架对计算资源的考虑侧重点只在于对数据流的数据的有效摘取和存储,并不能很有效地利用计算资源提供更多更快的聚类服务。基于以上的数据流处理要求和挑战,本文探讨一种基于数据概念漂移的阶段性的按需处理的数据聚类框架(SRAStream)。该框架的目标是利用有限的计算资源,在保证一定的精确度情况下确保数据处理得更快,即是在牺牲可接受的精确度以提高数据的处理效率和服务能力。该框架的主要方案是通过对数据概念漂移进行检测,在数据发生概念漂移时触发后续的聚类计算操作,否则利用已有的最新的聚类结果进行服务;其原因是当概念漂移没有发生时,新数据的聚类结果与旧的聚类结果相近,而利用该方案可以减少不必要的重复计算,释放资源的压力,提升数据的处理能力。该框架主要包括四大模块:快速计算模块、数据概念漂移检测模块、聚类模块和资源监控模块。此外,在该框架下,本文也提出了一个数据概念漂移检测算法,通过快速准确的检测可以有效发现是否需要重新聚类,并及时提供重新聚类的触发信息。该算法模型是基于划分统计和快速粗糙聚类的,通过引入簇对数据点的容忍概念,对待检查数据集分割成簇容忍点集和簇不可容忍点集,基于簇容忍点集的划分统计识别簇集信息的偏移和消退,并且利用快速粗略的聚类方法对不可容忍点集挖掘新簇的产生,从簇集偏移、簇的消失以及簇新增多角度地构建新数据集的数据概念漂移模型,构建多粒度的漂移级别的检测。文中除了对框架的相关模块进行了数据模型的构建和分析,同时也从时间复杂度和空间复杂度两个方面去比较本方案和经典方案CluStream。最后,论文在UCI数据集以及其他相关数据集上,通过构造相关的精确度实验和数据流模拟实验,从实验效果检验本案效果达到预期的目标。

全文目录


摘要  4-6
ABSTRACT  6-10
第一章 引言  10-20
  1.1 大数据处理的背景和意义  10-15
  1.2 大数据实时处理相关问题及技术挑战  15-17
  1.3 本文的工作  17-19
  1.4 论文结构简介  19-20
第二章 大数据处理相关综述  20-40
  2.1 大数据研究  20-22
  2.2 数据挖掘  22-29
  2.3 数据流处理  29-40
第三章 实时数据流处理框架  40-44
  3.1 框架描述  40-41
  3.2 模块介绍  41-44
第四章 数学模型  44-52
  4.1 相关的定义  44-46
  4.2 流控模型  46-47
  4.3 数据概念漂移模型  47-49
  4.4 聚类模型  49-52
第五章 数据概念漂移检测算法  52-60
  5.1 基于时间段的阶段聚类  52-53
  5.2 数据概念漂移检测算法  53-56
  5.3 其他相关策略  56-60
第六章 复杂度分析  60-64
  6.1 时间复杂度分析  60-61
  6.2 空间复杂度分析  61-64
第七章 实验结果与分析  64-84
  7.1 聚类效果实验  65-74
  7.2 概念漂移检测效果实验  74-78
  7.3 海量数据实时处理实验  78-81
  7.4 实验总结  81-84
第八章 总结与展望  84-86
  8.1 总结  84-85
  8.2 展望  85-86
参考文献  86-92
致谢  92

相似论文

  1. 汽车售后配件管理系统的设计与运行研究,F426.471
  2. 分片式处理器上谓词执行技术的实现与优化,TP302
  3. 数据流聚类算法研究,TP311.13
  4. 分布式审计系统中消息广播和超大数据传输方法的研究,TP338.8
  5. 基于排队论的数据流连续查询处理模型的研究与实现,TP311.13
  6. 基于知识整合的数据流分类算法研究,TP311.13
  7. 基于数据流异常检测的嵌入式软件容错研究,TP368.1
  8. 一种改进的动态污点分析模型,TP393.08
  9. 超高速网络中基于终端限制的大数据传输问题的研究,TN919.3
  10. 安全相关软件的设计方法研究及应用,TP311.52
  11. 基于数据流的快速协议判断方法研究,TP393.08
  12. 基于行为特征的P2P流识别技术的研究,TP393.02
  13. 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
  14. ARM反编译中的类型分析技术研究,TP368.1
  15. 多媒体数据流描述模型与传输同步化方法研究,TN919.8
  16. C/C++程序安全检查工具中数据流分析器的设计与实现,TP311.11
  17. 面向数据流的频繁模式挖掘算法研究,TP311.13
  18. 基于端口号、统计特征和协议特征字的实时数据流分类,TP311.13
  19. 基于DNS数据流的僵尸网络检测技术研究,TP393.08
  20. 基于SVM的P2P数据流检测技术的研究,TP393.02
  21. 基于大数据集的DEM数据管理与调度关键技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com