学位论文 > 优秀研究生学位论文题录展示
数据挖掘算法优化研究与应用
作 者: 王明星
导 师: 刘锋
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 数据挖掘 分类算法 决策树 增量学习
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 15次
引 用: 0次
阅 读: 论文下载
内容摘要
随着现代社会的高速发展,各种各样的信息以及数据呈现爆炸式的增长,积累的信息和数据越来越多。这些存放在媒介中的海量数据,在没有外部工具的帮助下,人们很难从这些巨大的数据量中找到有用的信息,这些数据将成为垃圾数据。数据挖掘技术的出现,很好地解决了这个问题。数据挖掘技术可以从大量的数据中分析学习数据中对用户有用的模式和规则,利用这些学习到的模式和规则,当有新的样本数据的时候,可以根据已有的模式和规则来预测样本数据可能的特性。数据挖掘分类是数据挖掘的重要步骤之一,而在数据挖掘分类算法中,决策树分类算法是数据挖掘中应用较广的一种分类算法,它主要有ID3分类算法和C4.5分类算法,ID3有着简单易操作的优点,但也有着偏向于处理小数据集,以及只能处理离散属性的缺点,C4.5算法可以很好的弥补ID3算法对连续属性的处理不足的缺点,但C4.5算法同样有着处理增量学习和大数据量问题的不足。解决决策树算法的增量学习问题就是本文研究的切入点。本文主要对数据挖掘中的分类算法进行详细的介绍和描述,然后将分类算法和数据挖掘增量学习技术相结合,提出了一种增量式决策树算法来解决决策树经典算法的增量学习问题,并对该算法进行了实验数据分析。针对数据挖掘中常见的分类算法,包括:决策树分类算法、最近邻居算法和神经网络这三种最常见分类算法,进行了详细的介绍和描述,并对这三种算法的分类性能进行了比较研究。本文选取决策树分类算法中ID3算法和C4.5算法进行详细的研究,详尽的介绍了这两种分类算法的基本步骤,包括决策树生成和决策树剪枝的基本步骤并列举实例来演示算法的原理。同时分析了ID3算法和C4.5算法的优缺点;最后,根据前面对ID3算法和C4.5算法的性能和优缺点分析,综合贝叶斯分类算法的增量学习特性,提出了一种增量式决策树算法,并通过分析实验数据,该算法很好地解决了决策树算法的增量学习问题。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第一章 绪论 8-17 1.1 课题研究背景和意义 8-9 1.2 数据挖掘理论基础 9-16 1.2.1 数据挖掘的定义 9-10 1.2.2 数据挖掘主要技术支撑 10-11 1.2.3 数据挖掘步骤 11-13 1.2.4 数据挖掘功能与分类 13-15 1.2.5 数据挖掘国内外研究现状分析 15-16 1.3 本文主要结构 16 1.4 本章小结 16-17 第二章 数据挖掘常用分类算法介绍 17-28 2.1 分类的基本概念和步骤 17-19 2.1.1 分类的基本概念 17 2.1.2 分类的基本步骤 17-19 2.1.3 分类前的数据预处理 19 2.2 数据挖掘常见几种分类算法 19-27 2.2.1 决策树分类算法 20-21 2.2.2 K最近邻分类算法 21-23 2.2.3 神经网络与遗传算法 23-26 2.2.4 经典分类算法的性能比较 26-27 2.3 本章小结 27-28 第三章 决策树分类算法的深入探究 28-43 3.1 决策树分类算法概述 28-32 3.1.1 决策树构造算法 28-31 3.1.2 决策树剪枝算法 31-32 3.2 ID3算法 32-38 3.2.1 信息论概述 32-33 3.2.2 信息增益计算 33-34 3.2.3 ID3算法 34-35 3.2.4 ID3算法的应用实例 35-37 3.2.5 ID3算法优缺点分析 37-38 3.3 C4.5算法 38-42 3.4 本章小结 42-43 第四章 一种改进增量式决策树分类算法 43-56 4.1 朴素贝叶斯方法理论基础 43-47 4.1.1 贝叶斯定理 43-44 4.1.2 朴素贝叶斯分类理论 44-45 4.1.3 贝叶斯理论应用举例 45-47 4.2 增量学习概念 47-48 4.3 增量式决策树算法实现 48-52 4.3.1 贝叶斯分类器接口 48-49 4.3.2 增量式决策树算法 49-52 4.4 实验数据分析 52-55 4.5 本章小结 55-56 第五章 结论与展望 56-58 参考文献 58-62 致谢 62-63 攻读硕士学位期间发表的论文 63
|
相似论文
- 基于支持向量机的故障诊断方法研究,TP18
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 数据集市在电信经营分析中的应用研究,TP311.13
- 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
- 基于数据流挖掘技术的流量识别,TP393.06
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则挖掘在交通事故成因分析中的应用,U491.31
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|