学位论文 > 优秀研究生学位论文题录展示

数据流频繁项集挖掘系统的研究

作 者: 詹海鹏
导 师: 严春
学 校: 武汉理工大学
专 业: 计算机科学与技术
关键词: 数据流挖掘 频繁模式 CAN-tree 概要模型
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 40次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,新型的数据流模型出现在数据挖掘领域中,这使得该领域的发展出现了新的挑战。由于数据流的动态性,使得已有的针对静态数据的成熟挖掘技术无法对这种连续到达、无限规模的数据进行有效的信息挖掘,所以对于数据流的挖掘逐渐成为国内外研究人员的关注点。对于数据流挖掘的研究,可以应用在广泛的生活环境中,比如电信行业、大型连锁超市销售行业、多传感器网络领域以及网络监控领域都有其存在应用的意义。带着如此规模巨大的应用前景,相信数据流挖掘技术会飞速发展。本文在引入数据流挖掘的相关概念及数据挖掘中相关算法理论的同时,主要研究了数据流中频繁项集挖掘的问题,提出了一个基于CAN-tree概要数据模型的数据流频繁项集挖掘系统的实现方法,在该系统实现中,改进了概要数据模型的构建方式,提出与之匹配的频繁模式挖掘算法,并通过多次实验得出结果,并做了结果分析。本文主要涉及到以下几个方面的内容:1、引入数据流挖掘概念。对比静态数据,讲述数据流的概念,发展过程及其特点;介绍当前存在的一些数据流模型构建算法,数据挖掘中关联规则和频繁模式挖掘的一些经典算法;介绍数据流管理系统目前的发展现状及特点。2、设计了基于CAN-tree结构的概要数据模型。引入训练的思想,使用前期数据流事务集构建基本有序的项头表,提高了后期子树的压缩率;改进子树的结构,使其更符合后期的频繁模式挖掘的需要;3、提出了FPMC算法。在基于改进的CAN-tree结构上,提出了一种快速的频繁模式挖掘算法,省去了以往的递归思想,使得后续的挖掘过程中尽量节省资源,提高挖掘速度和效率,使其更符合动态的数据流挖掘的思想。总体上讲,通过多次实验证明,系统基本满足了预期的设计期望,实现了一个基本符合数据流挖掘系统定义的完整应用系统。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-11
  1.1 引言  8
  1.2 数据流挖掘发展现状以及特点  8-9
  1.3 论文的结构  9-10
  1.4 本章小结  10-11
第2章 数据流挖掘基本算法研究  11-31
  2.1 数据流的概念  11
  2.2 模型构建算法  11-13
  2.3 数据流管理系统  13-16
    2.3.1 数据流管理系统模型  13-15
    2.3.2 数据流管理系统与关系数据库管理系统的区别  15-16
    2.3.3 数据流管理系统的发展现状  16
  2.4 关联规则  16-23
    2.4.1 关联规则相关定义  16-17
    2.4.2 数据挖掘中关联规则分类  17-18
    2.4.3 关联规则算法  18-23
  2.5 频繁模式挖掘算法  23-28
    2.5.1 频繁模式挖掘概念  23-24
    2.5.2 频繁模式的挖掘过程  24-25
    2.5.3 基于数据流的频繁模式挖掘  25-28
  2.6 现有CAN-tree结构频繁模式挖掘的主要问题  28-30
  2.7 本章小结  30-31
第3章 数据流频繁模式挖掘系统设计  31-40
  3.1 系统要解决的问题  31
  3.2 系统特点概述  31-32
  3.3 数据流挖掘系统的设计  32-38
    3.3.1 构建CAN-tree过程  32-37
    3.3.2 频繁模式挖掘过程  37-38
  3.4 系统的应用  38
  3.5 系统关键问题的解决  38-39
  3.6 本章总结  39-40
第4章 数据流频繁模式挖掘算法流程及实现  40-48
  4.1 算法所需结构体及类定义  40-41
    4.1.1 类定义  40-41
    4.1.2 结构体定义  41
  4.2 算法流程描述  41-42
  4.3 算法具体设计  42-47
    4.3.1 CAN-tree结构实现过程  42-45
    4.3.2 频繁模式挖掘阶段  45-47
  4.4 本章小结  47-48
第5章 实验结果分析  48-52
  5.1 实验环境  48
  5.2 实验结果分析  48-50
  5.3 本章小结  50-52
第6章 系统的总结与展望  52-54
  6.1 论文总结  52
  6.2 数据流挖掘的展望  52-54
参考文献  54-57
致谢  57-58
附录  58

相似论文

  1. SRAM软故障侦测与纠错方法研究及其电路实现,TP333.8
  2. 基于能量优化的ZigBee关键技术的研究,TP212.9
  3. 基于海量点云的三维模型快速重建技术研究,TP391.41
  4. K-匿名数据的查询方法研究,TP309
  5. 频繁项挖掘算法及其应用研究,TP311.13
  6. 基于可变滑动窗口的数据流闭合频繁模式挖掘研究,TP311.13
  7. 基于FP-tree的多层关联规则挖掘算法的研究,TP311.13
  8. 基于非参数回归的短时交通流预测系统设计,U491.112
  9. 中文网页热门主题获取系统的研究与实现,TP393.092
  10. 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
  11. 基于树结构的精简序列模式挖掘算法研究,TP311.13
  12. 若干求解大规模问题的支持向量机算法,O212
  13. 基于Squeezer算法与Java技术的WSN入侵检测系统,TN918.82
  14. 分布式入侵检测系统的报警关联与分析算法,TP393.08
  15. 基于采样数据流挖掘的网络行为分析研究,TP393.08
  16. 时态索引技术及算法的研究,TP311.13
  17. 基于FP-Tree的关联规则挖掘算法研究,TP311.13
  18. 面向数据流的频繁模式挖掘算法研究,TP311.13
  19. Utilization of Calibration Free Femtosecond Laser-Induced Breakdown Spectroscopy (CF-LIBS) for Monitoring of the Elemental Composition in Poplar Tree Leaves,TN241
  20. PU数据流挖掘研究,TP18
  21. 同位模式空间数据挖掘算法研究及在GIS中的应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com