学位论文 > 优秀研究生学位论文题录展示
一种基于全局频繁模式的数据挖掘算法及系统实现
作 者: 谭越
导 师: 殷贤亮
学 校: 华中科技大学
专 业: 计算机软件与理论
关键词: 多源数据流 全局频繁模式 频繁模式挖掘 多级处理引擎
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 20次
引 用: 0次
阅 读: 论文下载
内容摘要
在国际一体化大背景下,行业内及行业间的事务往来空前频繁,信息交流频率呈爆炸式增长。信息源由以往的单一环境、较小数据量、静态存储方式向分布式环境、流数据形式、动态处理逐渐转换。如何利用有限的硬软件资源从源源不断的数据流中提取出有价值的信息是目前IT行业炙手可热的研究课题。分布式环境赋予数据流频繁模式挖掘新的特性。单主机参与数据频繁项挖掘已经不适合目前海量数据实时产生的特征。传统的分布式数据流全局频繁模式挖掘保留的候选项过多,导致内存占用较大、计算资源浪费过多,进而造成网络通信代价较高,使得资源的合理利用率大打折扣。基于改进后的频繁模式挖掘模型能将候选项的规模控制在一定范围内,从而提高模式挖掘效率。由于采取了比较合适的保留候选项的条件,模式挖掘的正确性也可以得到保障。在分布式环境下,针对多源数据流全局频繁模式挖掘利用多站点的计算能力,将异信息源数据分别在本地挖掘。通过改进频繁模式树(FP-树)结构,减小数据项存储空间。利用网络通信技术将一次挖掘后的数据互通融合,实现了前端处理引擎向后端发送较小的约束模式信息。同时,通过前后处理引擎的信息交互,实现了动态控制约束模式信息的量级,从而大大缓解了模式信息频繁更新的通信压力。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-14 1.1 课题研究背景 8-9 1.2 多源数据流全局频繁模式挖掘的特点 9-10 1.3 国内外研究状况 10-12 1.4 本文内容与组织结构 12-14 2 一种频繁模式挖掘方法 14-37 2.1 频繁模式挖掘特点 14-15 2.2 流数据研究特性 15-16 2.3 挖掘模型基本概念 16-18 2.4 模式挖掘模型 18-35 2.5 本章小结 35-37 3 基于全局频繁模式的数据挖掘原型系统的设计与实现 37-56 3.1 D-FMS 总体设计 37-38 3.2 子模块之间的关系 38 3.3 主要模块结构 38-40 3.4 主要数据结构 40-43 3.5 系统实现技术 43-55 3.6 本章小结 55-56 4 性能分析与评估 56-63 4.1 实验仿真环境 56 4.2 试验参数 56 4.3 正确性分析 56-58 4.4 输出纯度 58-59 4.5 内存开销 59-60 4.6 时间开销 60 4.7 通信开销 60-62 4.8 本章小结 62-63 5 总结与展望 63-65 5.1 工作总结 63-64 5.2 未来展望 64-65 致谢 65-66 参考文献 66-70 附录 攻读学位期间参与的科研项目 70
|
相似论文
- 基于约简频繁模式树的频繁模式挖掘及查询算法研究,TP311.13
- RFID路径数据聚类分析与频繁模式挖掘,TP311.13
- 树形数据的频繁模式研究,TP311.13
- 基于频繁模式挖掘的网络攻击检测及特征发现,TP393.08
- 频繁模式挖掘算法LPS-Miner及其并行模式研究,TP311.13
- 人物简历问答系统的研究与实现,TP311.52
- 频繁子图挖掘算法的研究与应用,TP311.13
- 基于一种半结构化数据模型的频繁模式挖掘研究,TP311.13
- 互关联后继树索引改进研究与应用,TP391.3
- 基于XML数据的模式发现和存储研究,TP311.1
- 频繁模式挖掘算法研究及在入侵检测中的应用,TP393.08
- 大规模网络数据流异常检测系统的研究与实现,TP393.08
- 基因表达数据的若干挖掘方法研究,TP311.13
- 基于Agent理论的知识发现,TP182
- 基于隐私保护的数据挖掘若干关键技术研究,TP311.13
- 频繁模式挖掘算法与剪枝策略研究,TP311.13
- Web使用挖掘若干关键问题研究,TP393
- 面向Web的XML文档数据管理及分类检索技术研究,TP391.3
- 频繁模式挖掘技术研究及其在供应链管理中的应用,TP311.13
- 基于半结构化数据模型的频繁模式挖掘研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|