学位论文 > 优秀研究生学位论文题录展示
关联规则挖掘算法的研究
作 者: 周虹
导 师: 郝忠孝;李殿奎
学 校: 哈尔滨理工大学
专 业: 计算机技术
关键词: 数据挖掘 关联规则 项目序列集 时态约束 数据分割
分类号: TP301.6
类 型: 硕士论文
年 份: 2007年
下 载: 329次
引 用: 0次
阅 读: 论文下载
内容摘要
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要利用用户的约束等聚焦挖掘目标:需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,我们选择了这一课题开展相关工作。本文的研究主要包括关联规则挖掘理论及其算法等。在关联规则挖掘理论研究上,我们给出了项目序列集格空间,并且探讨了在这个空间上的基本操作算子。基于项目序列集格空间及其操作,我们建立了关联规则挖掘算法。在关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法ISS-DM、时态约束下的关联规则挖掘算法TISS-DM、数据分割下的关联规则挖掘算法PISS-DM。ISS-DM算法是建立在严格的项目序列集格理论及其操作基础上,是一个一次数据库扫描的而且不使用侯选集的高效算法。我们选择目前引用率较高的Apriori算法和ISS-DM进行了对比实验。结果表明,ISS-DM执行时间整体上优于Apriori算法,而且随着数据量的增大ISS-DM执行时间的增长幅度也小于Apriori算法。为了提高对大型数据集挖掘的适应性,将时态约束应用到挖掘的预处理中,改进ISS-DM成TISS-DM。这部分工作还包括对时态区间、时态约束下的数据挖掘空间以及时态区间操作等进行了形式化,它们是TISS-DM的理论基础。对ISS-DM的另一个改进算法是PISS-DM。它是针对大数据集挖掘过程中对内存和CPU等系统资源要求较高的情况被提出和设计的,采用了数据分割的方法来减少资源的占用。本文解决了数据分割下局部频繁项目序列集和全局频繁项目序列集的转换等问题,是一个两次扫描数据库的算法。
|
全文目录
摘要 6-8 Abstract 8-14 第1章 绪论 14-26 1.1 课题背景 14-16 1.2 数据挖掘的定义 16-18 1.3 数据挖掘研究的内容和本质 18-19 1.4 数据挖掘的特点 19-20 1.5 数据挖掘的分类 20-22 1.6 数据挖掘未来研究方向 22-23 1.7 拟解决的问题 23-25 1.8 本章小节 25-26 第2章 关联规则挖掘理论和算法研究 26-44 2.1 基本概念与解决方法 26-27 2.2 经典的关联规则挖掘算法分析 27-29 2.3 Apriori算法的性能瓶颈问题 29 2.4 对项目集格空间理论的发展 29-33 2.5 项目序列集格空间和它的操作 33-35 2.6 基于项目序列集操作的关联规则挖掘算法 35-39 2.6.1 关联规则挖掘空间定义 36 2.6.2 三个实用算子 36-38 2.6.3 最大频繁项目序列集的生成算法 38 2.6.4 ISS-DM算法执行示例 38-39 2.7 算法分析 39-42 2.7.1 空间与时间复杂度的理论分析 39-40 2.7.2 实验数据与分析 40-42 2.8 本章小结 42-44 第3章 时态约束关联规则挖掘问题及算法 44-55 3.1 改善关联规则挖掘质量问题 44-46 3.1.1 用户主观层面 44-45 3.1.2 系统客观层面 45-46 3.2 约束数据挖掘问题 46-48 3.3 时态区间格及时态约束关联规则挖掘 48-49 3.4 时态约束关联规则挖掘的预处理 49-50 3.5 时态约束下的关联规则挖掘算法 50-52 3.6 实验与讨论 52-54 3.7 本章小结 54-55 第4章 数据分割下的挖掘问题及算法 55-64 4.1 关联规则的优化方法 55-59 4.2 PISS-DM算法描述 59-61 4.2.1 数据分割问题 60 4.2.2 在数据分片中发现局部频繁项目序列 60-61 4.2.3 生成全局的频繁项目序列 61 4.3 实验 61-63 4.4 本章小节 63-64 结论 64-66 参考文献 66-70 致谢 70-71 工程硕士研究生个人简历 71
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于数据挖掘的信用卡客户激活与响应度研究,F832.2
- 银行个人客户关系管理系统的设计与实现,TP311.52
- 基于数据挖掘技术的电信客户维系挽留系统分析及应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|