学位论文 > 优秀研究生学位论文题录展示
基于倾斜时间窗口的频繁项集挖掘算法研究
作 者: 徐艳红
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机软件与理论
关键词: 数据流 频繁项集 二进制向量 LR-Trie树 内存开销
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 17次
引 用: 2次
阅 读: 论文下载
内容摘要
当今的信息社会的中,人们每天都要处理各种各样的信息和数据。随着信息的爆炸式增长,许多应用中需要处理的数据规模也越来越大,这些数据以快速的、大量的、按时间顺序连续到达,这种数据模式就是数据流。由于数据流的流动性和无限性的特点,原有频繁项集挖掘算法已很难完成基于数据流上的挖掘任务。这些挑战吸引了许多人对数据流中频繁项集挖掘进行了大量研究。现在,数据流中频繁项集挖掘已成为数据挖掘中的热点之一。FP-stream算法可以实现在线挖掘多时间粒度的频繁项集。作为一个经典的挖掘算法,FP-stream算法具有较好的时间效率。但它的不足之处在于:算法使用FP-growth算法来生成频繁项集和计算支持数,需要很大的内存开销和时间开销;整个挖掘过程中,所有的历史信息数据都存于内存中,随着时间的推移内存空间将急剧的膨胀。所以,内存开销巨大是FP-stream算法最大的缺点。针对上述问题,本文将在原算法的基础之上,采用一种新的数据结构(LR-Trie树及树结点)来存储频繁项集及其对应的倾斜时间窗口。同时引入了垂直的二进制向量表示法存储事务数据以提高时空效率。由于构造了新的树结点结构,可以方便地完成LR-Trie树的线性存储和结点查询。另外将LR-Trie树分割为若干子树并以文件的形式存储,在内存中建立项和文件的索引表,按需调入文件,极大地减少了内存消耗。实验表明,改进后的算法在不明显降低原算法时间效率的前提下,提高了内存空间利用率。该算法适用于对时间要求不高,但对内存空间要求较高的应用。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-16 1.1 论文研究的目的和意义 11-12 1.2 国内外研究现状 12-14 1.3 课题的研究内容 14 1.4 本文的组织结构 14-16 第2章 数据流及相关技术概述 16-32 2.1 数据流概述 16-19 2.1.1 数据流的概念及特点 16-18 2.1.2 数据流处理模型 18-19 2.2 数据流挖掘算法 19-24 2.2.1 数据流分类 20-22 2.2.2 数据流聚类 22-23 2.2.3 数据流频繁项集挖掘 23-24 2.3 数据流频繁项集挖掘的算法 24-31 2.3.1 基本概念和性质 24-25 2.3.2 常用数据结构 25-29 2.3.3 经典算法研究与评析 29-31 2.4 本章小结 31-32 第3章 基于倾斜时间窗口的频繁项集挖掘算法 32-55 3.1 FP-stream 算法 32-35 3.1.1 FP-stream 算法简介 32-33 3.1.2 FP-stream 算法描述 33-34 3.1.3 FP-stream 算法不足 34-35 3.2 一种改进 FP-stream 的算法 35-53 3.2.1 算法改进思想 35-36 3.2.2 相关数据表示 36-39 3.2.3 相关数据结构 39-41 3.2.4 查询更新算法 41-45 3.2.5 批量插入算法 45-48 3.2.6 结点删除算法 48-51 3.2.7 LR-Trie 树构造算法 51-53 3.3 算法整体描述 53-54 3.4 本章小结 54-55 第4章 实验及分析 55-62 4.1 数据集介绍 55-56 4.2 实验环境介绍 56 4.3 实验结果及分析 56-61 4.4 本章小结 61-62 结论 62-63 参考文献 63-67 攻读硕士学位期间发表的论文和取得的科研成果 67-68 致谢 68
|
相似论文
- 一种多数据流聚类异常检测算法,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 基于数据流异常检测的嵌入式软件容错研究,TP368.1
- 云存储系统高效数据传输机制的研究,TP333
- 网间加速技术研究与实现,TP393.2
- 安全相关软件的设计方法研究及应用,TP311.52
- 关联规则算法及其在智能药房系统中的应用研究,TP311.13
- 基于矩阵的加权关联规则挖掘算法研究,TP311.13
- 高效频繁项集发现方法与Apriori的改进,TP311.13
- 不确定数据流上Skyline查询处理技术研究,TP311.13
- ARM反编译中的类型分析技术研究,TP368.1
- 基于子空间的高维数据流聚类算法研究,TP311.13
- 基于网格的高维数据流与序列数据聚类算法研究,TP311.13
- 基于密度的数据流子空间聚类算法研究,TP311.13
- 面向数据流的优化聚类算法研究,TP311.13
- PU数据流挖掘研究,TP18
- JSP跨站脚本漏洞静态检测技术的研究与实现,TP311.10
- 基于GPU的数据流通用处理模型,TP311.13
- 数字变频仿真,TN92
- 基于行为特征的P2P流识别技术的研究,TP393.02
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|