学位论文 > 优秀研究生学位论文题录展示

基于倾斜时间窗口的频繁项集挖掘算法研究

作 者: 徐艳红
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 数据流 频繁项集 二进制向量 LR-Trie树 内存开销
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 17次
引 用: 2次
阅 读: 论文下载
 

内容摘要


当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到达,这种数据模式就是数据流。由于数据流的流动性和无限性的特点,原有频繁项集挖掘算法已很难完成基于数据流上的挖掘任务。这些挑战吸引了许多人对数据流中频繁项集挖掘进行了大量研究。现在,数据流中频繁项集挖掘已成为数据挖掘中的热点之一。FP-stream算法可以实现在线挖掘多时间粒度的频繁项集。作为一个经典的挖掘算法,FP-stream算法具有较好的时间效率。但它的不足之处在于:算法使用FP-growth算法来生成频繁项集和计算支持数,需要很大的内存开销和时间开销;整个挖掘过程中,所有的历史信息数据都存于内存中,随着时间的推移内存空间将急剧的膨胀。所以,内存开销巨大是FP-stream算法最大的缺点。针对上述问题,本文将在原算法的基础之上,采用一种新的数据结构(LR-Trie树及树结点)来存储频繁项集及其对应的倾斜时间窗口。同时引入了垂直的二进制向量表示法存储事务数据以提高时空效率。由于构造了新的树结点结构,可以方便地完成LR-Trie树的线性存储和结点查询。另外将LR-Trie树分割为若干子树并以文件的形式存储,在内存中建立项和文件的索引表,按需调入文件,极大地减少了内存消耗。实验表明,改进后的算法在不明显降低原算法时间效率的前提下,提高了内存空间利用率。该算法适用于对时间要求不高,但对内存空间要求较高的应用。

全文目录


摘要  6-7
Abstract  7-11
第1章 绪论  11-16
  1.1 论文研究的目的和意义  11-12
  1.2 国内外研究现状  12-14
  1.3 课题的研究内容  14
  1.4 本文的组织结构  14-16
第2章 数据流及相关技术概述  16-32
  2.1 数据流概述  16-19
    2.1.1 数据流的概念及特点  16-18
    2.1.2 数据流处理模型  18-19
  2.2 数据流挖掘算法  19-24
    2.2.1 数据流分类  20-22
    2.2.2 数据流聚类  22-23
    2.2.3 数据流频繁项集挖掘  23-24
  2.3 数据流频繁项集挖掘的算法  24-31
    2.3.1 基本概念和性质  24-25
    2.3.2 常用数据结构  25-29
    2.3.3 经典算法研究与评析  29-31
  2.4 本章小结  31-32
第3章 基于倾斜时间窗口的频繁项集挖掘算法  32-55
  3.1 FP-stream 算法  32-35
    3.1.1 FP-stream 算法简介  32-33
    3.1.2 FP-stream 算法描述  33-34
    3.1.3 FP-stream 算法不足  34-35
  3.2 一种改进 FP-stream 的算法  35-53
    3.2.1 算法改进思想  35-36
    3.2.2 相关数据表示  36-39
    3.2.3 相关数据结构  39-41
    3.2.4 查询更新算法  41-45
    3.2.5 批量插入算法  45-48
    3.2.6 结点删除算法  48-51
    3.2.7 LR-Trie 树构造算法  51-53
  3.3 算法整体描述  53-54
  3.4 本章小结  54-55
第4章 实验及分析  55-62
  4.1 数据集介绍  55-56
  4.2 实验环境介绍  56
  4.3 实验结果及分析  56-61
  4.4 本章小结  61-62
结论  62-63
参考文献  63-67
攻读硕士学位期间发表的论文和取得的科研成果  67-68
致谢  68

相似论文

  1. 一种多数据流聚类异常检测算法,TP311.13
  2. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  3. 基于数据流异常检测的嵌入式软件容错研究,TP368.1
  4. 云存储系统高效数据传输机制的研究,TP333
  5. 网间加速技术研究与实现,TP393.2
  6. 安全相关软件的设计方法研究及应用,TP311.52
  7. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  8. 基于矩阵的加权关联规则挖掘算法研究,TP311.13
  9. 高效频繁项集发现方法与Apriori的改进,TP311.13
  10. 不确定数据流上Skyline查询处理技术研究,TP311.13
  11. ARM反编译中的类型分析技术研究,TP368.1
  12. 基于子空间的高维数据流聚类算法研究,TP311.13
  13. 基于网格的高维数据流与序列数据聚类算法研究,TP311.13
  14. 基于密度的数据流子空间聚类算法研究,TP311.13
  15. 面向数据流的优化聚类算法研究,TP311.13
  16. PU数据流挖掘研究,TP18
  17. JSP跨站脚本漏洞静态检测技术的研究与实现,TP311.10
  18. 基于GPU的数据流通用处理模型,TP311.13
  19. 数字变频仿真,TN92
  20. 基于行为特征的P2P流识别技术的研究,TP393.02

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com