学位论文 > 优秀研究生学位论文题录展示
数据流频繁项集挖掘研究
作 者: 王磊
导 师: 黄志球
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: 数据流 数据挖掘 数据流挖掘 频繁项集 近似算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 184次
引 用: 2次
阅 读: 论文下载
内容摘要
20世纪末,随着信息科学技术的不断进步,一种被称为数据流的模型出现在众多现实应用领域中,例如金融市场、网络监测、无线传感器网络等。与传统数据库中的静态数据集不同,数据流是一种源源不断产生,时间维度上严格有序,数值上不断变化的高速数据序列。数据流的这些特点,使得包括频繁项集挖掘在内的传统数据挖掘技术难以直接适用于数据流。本文对数据流中频繁项集挖掘技术进行了深入探索,主要有以下内容:(1)对数据流模型、数据流挖掘特点、现有的研究成果进行了总结,着重讨论了数据流中频繁项集挖掘技术,并在此基础上提出了一种事务链表组模型。(2)在对传统和数据流频繁项集挖掘技术深入研究的基础上,提出了一个基于滑动窗口、事务链表组、近似思想的DSTLG算法,来挖掘数据流中的频繁项集。(3)为了最大程度上减少频繁项集挖掘结果数,本文在数据流频繁项集挖掘DSTLG算法思想的基础上进行扩展,提出了DSMTLG算法,来挖掘数据流中的最大频繁项集。(4)通过一系列实验证明DSTLG及DSMTLG算法有着较好的时间和空间效率,并从时间代价和空间代价两个角度进行了性能分析。
|
全文目录
摘要 4-5 ABSTRACT 5-13 第一章 绪论 13-17 1.1 课题研究背景及意义 13 1.2 当前研究现状及选题依据 13-15 1.2.1 国内外研究现状 13-14 1.2.2 选题依据 14-15 1.3 本文研究的内容 15 1.4 论文组织结构 15-17 第二章 数据流挖掘问题描述 17-27 2.1 数据流模型的研究 17-20 2.1.1 数据流模型及划分 17-19 2.1.2 数据流与传统数据的处理模型 19-20 2.2 数据流挖掘面临的挑战 20-23 2.2.1 数据流挖掘算法的特点 20-21 2.2.2 适合数据流算法的处理技术 21-23 2.3 数据流频繁项集挖掘问题 23-24 2.4 数据流频繁项集挖掘算法分类 24-26 2.4.1 基于概率误差区间的算法 24-25 2.4.2 基于确定误差区间的算法 25-26 2.5 本章小结 26-27 第三章 数据流频繁项集挖掘处理机制研究 27-43 3.1 数据流频繁项集挖掘处理机制 27-29 3.1.1 近似控制 27 3.1.2 窗口变化 27-28 3.1.3 数据结构 28 3.1.4 衰减因子 28-29 3.2 基于数据流模型的近似度保证 29-35 3.2.1 基于界标模型的近似度保证 29-32 3.2.2 基于滑动窗口的近似度保证 32-33 3.2.3 时间倾斜窗口与多时间粒度 33-35 3.3 数据结构优化机制的研究 35-42 3.3.1 FP-Tree 与前缀树模型 35-38 3.3.2 传统多事务链模型 38-40 3.3.3 数据流中事务链表组模型 40-42 3.4 本章小结 42-43 第四章 数据流频繁项集挖掘算法研究 43-65 4.1 频繁模式分类及相关定义 43-45 4.2 不同频繁模式比较 45-46 4.3 数据流频繁项集挖掘DSTLG 算法 46-58 4.3.1 最大可能频繁度的估计 46-47 4.3.2 DSTLG 算法求解过程 47-48 4.3.3 滑动窗口和事务链表组的更新策略 48-51 4.3.4 事务链表组的修剪与还原 51-57 4.3.5 频繁项集的请求输出 57-58 4.4 DSTLG 算法分析与讨论 58-60 4.5 DSTLG 算法的扩展研究 60-64 4.5.1 事务链的扩展定义 60-61 4.5.2 扩展后事务链表组的更新策略 61-62 4.5.3 最大频繁项集的请求输出 62-63 4.5.4 扩展算法意义及局限性 63-64 4.6 本章小结 64-65 第五章 实验结果及分析 65-70 5.1 实验环境和测试数据 65 5.2 实验结果 65-68 5.2.1 稳定性实验 65-66 5.2.2 对比实验 66-67 5.2.3 扩展算法实验 67-68 5.3 实验分析 68-69 5.3.1 时间性能分析 68 5.3.2 空间性能分析 68-69 5.4 本章小结 69-70 第六章 总结与展望 70-72 6.1 论文总结 70-71 6.2 未来工作展望 71-72 参考文献 72-78 致谢 78-79 在学期间的研究成果 79-80 附录 80-86 附录1 eclipseUML 生成的算法类图 80-81 附录2 DSTLG 算法核心代码 81-86
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 汽车售后配件管理系统的设计与运行研究,F426.471
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 基于数据流挖掘技术的流量识别,TP393.06
- 自适应学习环境中学习行为与学习水平关联模型的研究,G434
- 一种多数据流聚类异常检测算法,TP311.13
- 基于改良蚁群算法的神经网络分类规则提取,TP183
- 数据流中闭频繁项集挖掘算法的研究,TP311.13
- 基于聚类分析的中职学校智能教材管理系统,TP311.52
- 纺织品服装出口的TBT风险监测与预警机理研究,TP311.13
- 门诊病人就诊行为模型挖掘研究,TP311.13
- 基于分类知识挖掘的雷电活动与地形关联性研究,TM86
- 基于数据挖掘技术的高校信息采集分析系统设计开发,TP311.13
- 基于用户行为数据分析的移动互联业务推荐模型,TP311.13
- 基于数据挖掘技术的人寿保险品质管理系统,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|