学位论文 > 优秀研究生学位论文题录展示
基于概念格的关联规则挖掘研究与实现
作 者: 孙晨
导 师: 祁建军
学 校: 西安电子科技大学
专 业: 计算机软件与理论
关键词: 关联规则挖掘 约束型关联规则 量化扩展概念格 最小等价内涵
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
关联规则挖掘作为数据挖掘领域中最活跃的研究分支之一,其目的是发现数据集中潜在的、新颖的、并为人类所理解的数据项间的关系。概念格理论,又称形式概念分析,用于概念的发现、排序和显示,其核心数据结构是概念格。概念格通过概念间的泛化和特化关系来表示知识。作为一种知识表示模型,概念格能够为关联规则挖掘提供有力支持。本文分析了现有关联规则挖掘算法中存在的主要问题。针对多次数据集扫描、候选集过多等问题,提出了在经典概念格中自顶向下、通过频繁概念逐层求取所有频繁项集的关联规则挖掘算法。针对规则冗余、无法及时更新等问题,优化了量化扩展概念格的结构,提出了事务集新增、删除和修改时格上的更新操作,通过将更新操作添加到Godin算法的建格过程中,形成了一种量化扩展概念格的增量式建格算法;根据最小等价内涵、封闭集定义了非冗余关联规则的模式,证明了由该模式形成的非冗余规则集是完备的;以此为基础设计实现了基于量化扩展概念格的增量式非冗余关联规则挖掘算法及约束型关联规则的挖掘算法。通过对算法在不同形式背景下执行时间的分析,验证了本文提出的“基于经典概念格的关联规则挖掘”改进了Apriori算法在“求取频繁项集”和“生成关联规则”两个模块的执行效率;“基于量化扩展概念格的关联规则挖掘”在“生成关联规则”模块的效率和质量两方面都优于上述两个算法。通过对算法特性的总结,得出当存在大量频繁项集时,“基于量化扩展概念格的关联规则挖掘”性能最优;当形式背景规模较大、频繁项集数量较少时,虽然因建格时间过长,整体性能不如其余两个算法,但“基于量化扩展概念格的关联规则挖掘”可以根据事务变更及时更新并且能够快速挖掘约束型关联规则,因此该算法实用性更强。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-11 1.1 课题背景与意义 7 1.2 研究现状 7-8 1.3 本文研究内容 8-9 1.4 本文组织结构 9-11 第二章 相关理论与技术 11-19 2.1 概念格 11-14 2.1.1 概念格概述 11 2.1.2 概念格基础理论 11-12 2.1.3 非典型概念格模型 12-13 2.1.4 概念格应用 13-14 2.2 关联规则挖掘 14-17 2.2.1 关联规则挖掘概述 14 2.2.2 关联规则基本概念 14-15 2.2.3 关联规则挖掘现有算法 15-17 2.3 小结 17-19 第三章 基于概念格的关联规则挖掘 19-43 3.1 基于经典概念格的关联规则挖掘 19-23 3.1.1 相关命题与结论 19-20 3.1.2 算法思想 20 3.1.3 基于概念格生成频繁项集 20-22 3.1.4 逐层生成关联规则 22-23 3.2 基于量化扩展概念格的关联规则挖掘 23-40 3.2.1 基本定义和相关命题 23-28 3.2.2 算法思想 28-29 3.2.3 量化扩展概念格的建立 29-33 3.2.4 量化扩展概念格的增量式维护 33-35 3.2.5 基于量化扩展概念格挖掘关联规则 35-36 3.2.6 基于量化扩展概念格挖掘约束型关联规则 36-40 3.3 小结 40-43 第四章 实验结果与分析 43-63 4.1 实验一 算法时间构成分析 44-51 4.1.1 密集型背景下挖掘关联规则 45-48 4.1.2 稀疏型背景下挖掘关联规则 48-50 4.1.3 实验结论 50-51 4.2 实验二 用户可设定变量对算法性能的影响 51-59 4.2.1 最小支持度对算法性能的影响 51-53 4.2.2 背景密度对算法性能的影响 53-55 4.2.3 对象个数对算法性能的影响 55-57 4.2.4 属性个数对算法性能的影响 57-58 4.2.5 实验结论 58-59 4.3 实验三 基于量化扩展概念格的约束型规则挖掘 59-61 4.4 小结 61-63 第五章 结论与展望 63-65 5.1 本文结论 63 5.2 不足之处与下一步工作 63-65 致谢 65-67 参考文献 67-71 攻读硕士期间研究成果 71-72
|
相似论文
- 选矿过程综合生产指标分解的补偿方法及应用,TP311.13
- 数据挖掘技术在证券市场分析中的应用研究,F830.91
- 基于闭频繁项集的Web日志挖掘,TP393.092
- 关联规则挖掘在税务系统中的应用与研究,TP311.13
- 并行Apriori算法的性能优化技术研究,TP311.13
- 基于模式识别和数据挖掘的铝工业生产节能降耗研究,TP391.41
- 基于少数民族汉语教学的HSK成绩多元数据挖掘应用研究,TP311.13
- 数据挖掘中的关联规则挖掘算法研究,TP311.13
- 基于垂直数据布局的关联规则挖掘算法研究,TP311.13
- 关联规则挖掘算法在web日志挖掘中的应用研究,TP311.13
- 分布式环境下关联规则挖掘的隐私保护方法研究,TP311.13
- 不确定数据上的关联分类器,TP311.13
- 不经意传输协议的研究与应用,TN918.1
- 基于滑动窗口的数据流关联规则挖掘研究,TP311.13
- 固定资产管理及状态分析的研究与实现,TP311.52
- 箱涵浅埋暗挖施工地表沉降监测资料分析与数据挖掘,U449
- 外包数据挖掘隐私保护算法研究和改进,TP311.13
- 提高数据仓库位图索引的效率,TP311.13
- 关于asp的高校选排课系统的设计与实现,TP311.52
- 关联规则挖掘在疾病数据处理中的应用研究,TP311.13
- 基于智能算法的涤纶长丝运行优化研究,TQ342.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|