学位论文 > 优秀研究生学位论文题录展示
KDD中的几个关键问题研究
作 者: 陈莉
导 师: 焦李成
学 校: 西安电子科技大学
专 业: 电路与系统
关键词: KDD 数据挖掘 自适应聚类 免疫遗传算法 数据预处理 关联规则 泛化关联规则 文档分类 petri 网 主分量分析 可视化 虚拟数据库 多层数据库 西安电子科技大学博士学位论文
分类号: TP311.13
类 型: 博士论文
年 份: 2003年
下 载: 916次
引 用: 8次
阅 读: 论文下载
内容摘要
I 摘 要 数据库中的知识发现(Knowledge Discovery in Database,KDD)是在应用需求的背景下产生并迅速发展起来的、开发信息资源的一套科学方法、算法及软件工具和环境,是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。KDD 是识别有效的、新颖的、具有潜在用处的可理解的数据模式的过程。一般地,KDD 由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式(型)评估、知识表示等过程组成。KDD 有三个重要的环节,即数据预处理、数据挖掘和结果可视化。 本文在详细分析国内外 KDD 研究现状的基础上,借鉴生物进化、计算智能、关系代数、petri 网等概念与理论,提出了基于自适应聚类、模糊聚类进行数据预处理的算法;基于关系代数和自适应混合算法集成的关联规则挖掘算法、泛化关联规则挖掘算法;分析了分类挖掘机理及文本分类与降维技术;针对现有的数据挖掘结果的可视化理论及技术,提出了基于 petri 网的鲁棒性的、统一的可视化模型;最后,实现了一个数据挖掘的应用实例,验证了文中有关算法和方法的有效性。主要研究内容如下: (1)数据预处理是确保数据挖掘成功的关键,文中将数据库理论与自适应并行优化算法相结合,给出了 KDD 与数据库/数据仓库无缝集成的 KDD 模型,并提出了基于自适应聚类与并行优化算法混合的数据预处理算法。仿真实验证明了算法的有效性,该算法可用于分类、聚类、关联规则等数据挖掘的预处理,并可推广到不同类型数据的数据预处理中。 (2)在数据预处理的基础上,提出了利用关系代数理论、数据库与 KDD 协同理论挖掘关联规则、泛化关联规则的算法,仿真结果表明了算法的有效性。与经典的 Apriori 算法相比,该算法只需扫描一次数据库,具有良好的并行性和可伸缩性,并易于推广到模糊关联规则的挖掘。 (3)分类是数据挖掘的主要应用之一。文中给出了分类挖掘的形式化定义,分析了分类挖掘的基本机理。在此基础上,提出了一种 Web 文档分类的基本框架,分析了用于文档分类的降维技术,给出了基于主分量分析和支撑矢量机的文档分类的基本思想,分析了仿真实验的结果。 (4)数据挖掘结果及数据挖掘过程的可视化表示是 KDD 的又一个重要的组成部分。在分析了现有可视化理论及表示方法的基础上,针对其不足,提出了用petri 网表示挖掘过程及挖掘结果的统一的、鲁棒性的框架,该方法也适用于动态规则的可视化表示。 (5)以陕北黄土高原多个地貌区为试验样区,在数字高程模型(DEM)所提取的数据集的基础上,挖掘各种地形因子对平均坡度的影响程度(国家自然科 雷达信号处理国家重点实验室<WP=6>II KDD 中的几个关键问题研究学基金项目(49971065)、国家高技术研究发展计划课题(2001AA130023)),以建立适合黄土高原多种地貌类型的,DEM 所提取的地面坡度随分辨率与地形变化的模型。实验结果具有很高的精度,证明了文中有关算法和方法的有效性。将KDD 和数据挖掘理论与算法用于地学信息处理是一种新的尝试,挖掘结果既有效地估算了地理空间数据的不确定性、非线性的关系特征,又从一个侧面揭示了黄土高原 DEM 地形信息容量变化的规律性,为建立黄土高原地形信息图谱提供了重要素材。
|
全文目录
目 录 9-5 摘要 Ⅰ 5-7 Abstract Ⅲ 7-11 第一章 绪论 11-38 1.1 数据挖掘概述 12-15 1.2 数据挖掘的分类 15-17 1.3 数据挖掘的研究内容 17-20 1.4 国内外数据挖掘现状 20-30 1.5 本论文的主要工作 30-38 第二章 KDD 的理论基础 38-69 2.1 数学理论Ⅰ 38-49 2.2 数学理论Ⅱ 49-52 2.3 机器学习理论 52-58 2.4 数据库理论 58-63 2.5 可视化理论 63-69 第三章 基于自适应聚类的数据预处理 69-86 3.1 数据预处理的基本概念 69-71 3.2 基于自适应聚类的数据预处理算法 71-79 3.3 数据预处理中的模糊聚类算法 79-86 第四章 基于关系代数理论的关联规则挖掘 86-100 4.1 关联规则的基本概念 86-88 4.2 关联规则的类型及挖掘算法 88-89 4.3 基于关系代数理论的关联规则挖掘 89-96 4.4 小结 96-100 第五章 分类挖掘机理与文档分类 100-119 5.1 分类的形式化定义 100-101 5.2 基于数据库的分类挖掘机理 101-105 5.3 虚拟数据库与 WEB 挖掘 105-107 5.4 文本分类与降维技术 107-115 5.5 小结 115-119 第六章 基于 petri 网的可视化模型 119-133 6.1 可视化的常用工具 119-120 6.2 petri 网的基本概念 120-125 6.3 基于 petri 网的鲁棒性的可视化模型 125-133 第七章 数据挖掘应用实例 133-147 7.1 引言 133-134 7.2 数据集概述 134-136 7.3 DEM 提取地面坡度的不确定性研究与实验 136-142 7.4 同一地区不同地形因子对平均坡度的影响研究 142-144 7.5 小结与讨论 144-147 总结与展望 147-151 致谢 151-152 攻读博士学位期间的主要工作 152-154
|
相似论文
- 基于XML模式的异构数据集成中间件研究,TP311.52
- 基于OGSA-DAI的异构数据集成的研究,TP274
- 医学超声图像的三维可视化研究,TP391.41
- 小麦群体生长可视化系统的设计与实现,S512.1
- 基于模型的水稻根系可视化研究,S511
- 基于模型的小麦根系可视化研究,S512.1
- 算法动画在高中算法教学中的应用研究,G633.6
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 基于WEB的网络视频客户端软件的设计与实现,TP311.52
- 打印机光谱色域描述及其可视化技术的研究,TP391.41
- 基于现代信息技术的青岛海湾大桥建设工程项目管理信息系统应用研究,TP311.52
- 一种企业数据空间可视化汇聚流程建模方法与查询优化策略,TP311.13
- 信息可视化在数字图书馆中的应用研究,G250.76
- 可视化分析与神经网络用于枇杷叶中提取熊果酸工艺试验研究,R284
- 扦插植物地下组织构型建模与仿真,S126
- 变电站经济运行与无功电压优化控制的研究,TM63
- 新型ALA-PM组合式转子电机虚拟样机技术,TM301.3
- 软岩铝土矿岩体质量可视化分级及工程应用研究,TD862.5
- 充填采矿法计算机辅助设计技术研究,TP391.72
- 大红山铜矿三维建模及可视化研究,P618.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|