学位论文 > 优秀研究生学位论文题录展示

数据流上概念漂移的检测和分类

作 者: 周驰
导 师: 王黎明
学 校: 郑州大学
专 业: 计算机软件与理论
关键词: 数据流 数据流挖掘 分类 概念漂移 Hoeffding树
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 94次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在当今信息时代,通信、计算机和网络技术的快速发展让我们能捕获和存储大量的数据,导致数据出现了爆炸性增长。在这些数据中寻找模式、趋势和异常之处,并且以简单的数量模型归纳,是信息时代巨大的挑战之一。数据挖掘正是为应对这一的挑战所诞生的一门新学科。近几年来出现了一类新的数据应用模型,包括:信用卡欺诈监测、网络安全监控、传感器数据和电力供应网等。此类应用模型的特点是海量的数据以高速有序的形式到达,学者将此类数据形式称之为数据流,即大量且连续的和潜在无限的数据的有序序列。分类技术是数据挖掘中一个非常重要的研究领域,而数据流模型自身的特点给传统的分类技术带来了新的挑战,即如何从快速到来的、海量的且数据分布可能发生变化的数据流中训练模型,来有效地预测未来的数据趋势。近年来出现了大量的数据流分类算法:VFDT、CVFDT、加权集成分类器和在线Bagging和Boosting。分本的研究重点为分类带有概念漂移的数据流技术。首先通过对概念漂移的分析,提出一种概念漂移检测方法。该方法使用统计学理论估计某一确定模型在最新概念上的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移。其次使用该概念漂移检测方法和核均值匹配(KMM)算法形成一种新的集成分类器框架,提出了一种数据流分类的新算法WSEC,并以理论和实验证明了该算法的有效性。最后提出了一种自适应概念漂移的基于Hoeffding树在线bagging分类算法(AHBag)。该算法对概念漂移检测方法进行修改使之适合在线挖掘,并由检测结果决定更新Hoeffding树或重建新Hoeffding树。实验结果表明,该算法在处理带有概念漂移的数据流上表现出很高的分类精度。

全文目录


摘要  4-5
Abstract  5-7
目录  7-10
1 绪论  10-15
  1.1 研究背景  10-11
  1.2 数据流概述  11
  1.3 数据流挖掘概述  11-13
  1.4 研究内容  13
  1.5 论文组织结构  13-15
2 数据流挖掘研究现状  15-28
  2.1 数据流处理技术  15-17
  2.2 数据流关联分析  17
  2.3 数据流聚类  17-18
  2.4 数据流分类  18-27
    2.4.1 Hoeffding树  19-23
    2.4.2 在线Bagging和Boosting  23-25
    2.4.3 加权集成分类器  25-27
  2.5 本章小结  27-28
3 概念漂移的检测  28-34
  3.1 概念漂移概述  28-29
  3.2 处理概念漂移的方法  29-31
    3.2.1 滑动窗口  29-30
    3.2.2 自适应窗口  30-31
    3.2.3 选择集成窗口  31
  3.2 概念漂移检测  31-33
  3.3 本章小结  33-34
4 基于KMM算法的集成分类器  34-43
  4.1 模型定义  34-35
  4.2 样本选择偏置KMM算法  35-36
  4.3 基于选择窗口的分类器集成  36-37
  4.4 集成分类器误差率的降低  37-38
  4.5 实验  38-42
    4.5.1 移动超平面仿真数据流  38-41
    4.5.2 NSL-KDD真实数据集  41-42
  4.6 本章小结  42-43
5 自适应概念漂移的在线集成分类器  43-51
  5.1 模型定义  43
  5.2 基于HOEFFDING树的在线BAGGING算法  43-45
  5.3 实验  45-50
    5.3.1 试验策略  46-50
      5.3.2 数据集  47
      5.3.3 实验结果及分析  47-50
  5.4 本章小结  50-51
6 总结与展望  51-53
  6.1 工作总结  51
  6.2 工作展望  51-53
参考文献  53-56
个人简历 在学期间发表的学术论文与研究成果  56-57
  个人简历  56
  攻读硕士学位期间的研究成果  56-57
致谢  57

相似论文

  1. K公司计划及预测改进对于合理库存配置的研究,F224
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 基于词义及语义分析的问答技术研究,TP391.1
  4. 基于三维重建的焊点质量分类方法研究,TP391.41
  5. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  6. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  7. 上下文相关的词汇复述研究,TP391.1
  8. 基于仿生模式识别的文本分类技术研究,TP391.1
  9. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 基于图像的路面破损识别,TP391.41
  12. 多样性密度学习算法的研究与应用,TP181
  13. 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
  14. 计算智能在数字化卷烟叶组配方中的应用研究,TS44
  15. 基于中国土壤系统分类的土壤类型和界线确定研究,S155
  16. 弯孢属种分子鉴定体系的建立及其在疑难种上的应用,Q949.32
  17. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  18. 面向公众的教育视频共建共享平台的设计与实践研究,G434
  19. 基于土壤系统分类的土壤调查方法研究,S155
  20. 西藏生防芽孢杆菌鉴定及其脂肽化合物分析,S476.1
  21. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com