学位论文 > 优秀研究生学位论文题录展示
关联规则基本技术研究
作 者: 郭运凯
导 师: 杨君锐
学 校: 西安科技大学
专 业: 计算机应用技术
关键词: 数据挖掘 关联规则 最大频繁项目集 排序频繁模式树 高维聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 119次
引 用: 1次
阅 读: 论文下载
内容摘要
数据挖掘是指从大型数据库中发现潜在的、新颖的、有价值的、可用的及能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要研究领域,主要是发现数据库中属性之间的关联关系。本文在广泛查阅国内外文献的基础上,针对关联规则算法的若干问题进行了深入地分析研究,论文的主要研究内容和成果如下:首先,提出了基于排序FP-Tree(Sorted FP-Tree,简称SFP-Tree)的最大频繁项目集挖掘算法SFP-Miner。在SFP-Miner算法中,通过两次扫描数据库将其中每个事务所包含的频繁项目压缩存储在SFP-Tree中。在挖掘过程中,充分利用SFP-Tree的特点,并采用合并子树和预剪枝策略在SFP-Tree上进行深度优先挖掘,而不需要扫描数据库,减少了算法在挖掘过程中使用的存储空间和计算时间。实验结果表明,该算法有较好的性能。其次,提出了基于完全合并SFP-Tree的最大频繁项目集更新挖掘算法UAMFI。该算法基于完全合并SFP-Tree,直接在树上进行深度优先搜索,能够快速地进行最大频繁项目集的更新挖掘。实验测试和结果分析,该算法可以高效的更新最大频繁项目集。最后,针对多值属性关联规则挖掘问题,提出了基于高维聚类的多值属性关联规则挖掘算法DBSMiner。该算法借鉴ARCS思想,先将高维数据集的各维进行划分,然后将密度单元进行排序,并提出一种基于网格的高维聚类算法对划分后的数据进行聚类挖掘。理论分析和试验结果表明,DBSMiner算法具有较好的执行效率和精确度,能有效的进行多值属性关联规则的挖掘。
|
全文目录
摘要 3-4 ABSTRACT 4-8 1 绪论 8-15 1.1 数据挖掘概述 8-12 1.1.1 数据挖掘技术的现状 8-9 1.1.2 数据挖掘的功能 9-10 1.1.3 数据挖掘过程 10-12 1.2 数据挖掘的发展趋势 12-13 1.3 论文的工作 13-14 1.4 论文的组织 14-15 2 关联规则挖掘研究 15-25 2.1 关联规则描述 15-17 2.1.1 基本概念 15-16 2.1.2 关联规则的分类 16-17 2.1.3 关联规则的挖掘步骤 17 2.2 关联规则挖掘算法 17-23 2.2.1 关联规则经典挖掘算法Apriori 17-21 2.2.2 对算法Apriori 的改进 21-22 2.2.3 基于对频繁模式树的FP-growth 算法 22-23 2.3 关联规则研究存在的问题及展望 23-24 2.4 小结 24-25 3 最大频繁项目集的挖掘 25-43 3.1 概念描述和当前研究成果 25-30 3.1.1 基本概念 25-26 3.1.2 当前研究成果 26-27 3.1.3 最大频繁项目集挖掘算法Mafia 27-30 3.2 SFP-Miner 算法 30-37 3.2.1 相关定义和性质 31-33 3.2.2 挖掘策略 33-34 3.2.3 算法描述 34-35 3.2.4 算法示例 35-37 3.3 SFP-Miner 算法的性能测试和分析 37-42 3.3.1 实验环境 37-38 3.3.2 算法测试和分析 38-41 3.3.3 SFP-Miner 算法的可扩展性实验 41-42 3.4 小结 42-43 4 最大频繁项目集的更新挖掘 43-51 4.1 关联规则更新挖掘 43-45 4.1.1 频繁项目集的更新挖掘 44 4.1.2 最大频繁项目集更新挖掘 44-45 4.2 最小支持度变化时的更新挖掘算法UAMFI 45-49 4.2.1 相关定义和性质 45-47 4.2.2 算法思想和描述 47-48 4.2.3 算法示例 48-49 4.3 算法测试和分析 49-50 4.4 小结 50-51 5 多值关联规则挖掘算法 51-60 5.1 概念描述和当前研究 51-53 5.1.1 多值属性关联规则的基本概念 51 5.1.2 多值属性关联规则的相关研究 51-53 5.2 多值属性关联规则挖掘 DBSMiner 53-59 5.2.1 问题分解 53 5.2.2 高维聚类算法CBSD 53-56 5.2.3 CBSD 算法的性能测试 56-58 5.2.4 利用聚类结果生成关联规则 58-59 5.3 小结 59-60 6 总结 60-62 6.1 本文总结 60-61 6.2 未来工作的展望 61-62 致谢 62-63 参考文献 63-69 附录 69-83
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于关联规则的结构化浏览技术及其应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|