学位论文 > 优秀研究生学位论文题录展示

流数据中频繁模式挖掘算法的研究

作 者: 贾立峰
导 师: 周春光
学 校: 吉林大学
专 业: 计算机应用技术
关键词: 流数据 频繁项集 多时间粒度 后缀树
分类号: TP311.13
类 型: 硕士论文
年 份: 2006年
下 载: 179次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据挖掘,又称数据库中的知识发现,是数据库研究中的一个很有应用价值的新领域,其目的是从大型数据库或数据仓库中提取隐含的、事先未知的、潜在有用的信息或模式,本文对流数据中的频繁项集挖掘问题进行了一定的探讨和研究。在深入探讨了如何在流数据中进行数据挖掘的问题后,本文有介绍了两个经典的挖掘流数据中频繁项集的算法。本文在考虑对商务流数据进行数据挖掘的实际情况下,着重探讨和研究了流数据中最近频繁项集的问题。为了区别流数据中新旧事务,我们提出了一个新的多时间粒度流数据模型,该模型不仅能够区别新旧事务对项集的影响力,而且能够根据实际情况自动地调慢模型中事务的衰减速度。在本文中,我们还提出了后缀树模型来间接但是快速地判断结点的连通性,从而挖掘后缀树中的频繁项集,并且根据后缀树独特的性质提出了深度优先自底向上内部项集增长方法。实验证明,在合成数据库中我们的算法有较好的最近频繁项集挖掘能力。

全文目录


第一章 引言  7-12
  1.1 流数据挖掘  7-8
  1.2 流数据中的频繁项集  8-9
  1.3 研究背景  9-11
  1.4 本文主要工作  11-12
第二章 流数据分析  12-22
  2.1 研究任务  12-13
  2.2 流数据模型及管理  13-17
    2.2.1 流数据模型及划分  13-15
    2.2.2 流数据模型与传统数据模型的区别  15-17
  2.3 流数据分析和挖掘  17-22
    2.3.1 解决问题的原则  17-18
    2.3.2 适合流数据挖掘的技术  18-22
第三章 流数据中频繁项集算法  22-28
  3.1 Lossy Counting 算法  23-26
    3.1.1 问题的形式化描述  23-24
    3.1.2 Estimation Mechanism  24-26
  3.2 FP-stream 算法  26-28
    3.2.1 时间标签窗技术  26-27
    3.2.2 时间标签窗表格的裁减  27-28
第四章 流数据中的最近频繁项集  28-42
  4.1 Landmark Model VS Sliding Window Model  28-29
  4.2 多时间粒度流数据模型  29-32
    4.2.1 基于时间粒度的衰减  30-31
    4.2.2 流数据中事务的衰减速度  31-32
  4.3 后缀树模型  32-38
    4.3.1 后缀树模型  32-36
    4.3.2 深度优先自底向上的内部项集增长  36-38
  4.4 RFIMiner 算法  38-42
    4.4.1 RFIMiner 算法  38-41
    4.4.2 讨论  41-42
第五章 实验结果及分析  42-46
  5.1 实验环境和测试数据集  42
  5.2 评估RFIMiner 算法的实验结果  42-46
    5.2.1 RFIMiner 算法的可延展性  43-44
    5.2.2 RFIMiner 算法的挖掘准确性  44
    5.2.3 RFIMiner, Apriori 和FP-growth 的比较  44-46
第六章 结束语及未来工作  46-48
  6.1 结束语  46
  6.2 未来工作展望  46-48
参考文献  48-51
研究生期间发表的论文  51-52
摘要  52-55
Abstract  55-58
致谢  58-59
导师及作者简介  59

相似论文

  1. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  2. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  3. 面向短消息文本的聚类技术研究与应用,TP391.1
  4. 基于闭频繁项集的Web日志挖掘,TP393.092
  5. 中文网页热门主题获取系统的研究与实现,TP393.092
  6. 开放式智能住院管理系统的研究与实现,TP311.52
  7. 职业学校教务管理软件的开发与实现,TP311.52
  8. 数据挖掘在煤矿安全监测中的应用,TP311.13
  9. 基因组中最大唯一匹配的查找算法研究,TP301.6
  10. Web中文文本聚类研究,TP391.1
  11. 基于投影数组和加权FP-tree的频繁项集挖掘算法研究,TP311.13
  12. DNA序列中串联重复体查找算法研究,R346
  13. 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
  14. 基于倾斜时间窗口的频繁项集挖掘算法研究,TP311.13
  15. 基于iceberg概念格的最大频繁项集挖掘研究,TP311.13
  16. 电子政务统一审批平台研究与设计,TP311.52
  17. 大型天线结构协同设计平台过程协同工具的开发与应用,TP311.52
  18. 生物序列索引结构构造算法研究,TP391.3
  19. 基于子空间的高维数据流聚类算法研究,TP311.13
  20. 基于垂直数据布局的关联规则挖掘算法研究,TP311.13
  21. 点击流数据仓库在电子商务中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com