学位论文 > 优秀研究生学位论文题录展示

一种模糊决策树中样例挑选算法的研究及其理论分析

作 者: 闫建辉
导 师: 王熙照
学 校: 河北大学
专 业: 计算机应用技术
关键词: 样例挑选 模糊决策树 样例测试 信息熵 冗余数据 泛化能力
分类号: TP18
类 型: 硕士论文
年 份: 2007年
下 载: 7次
引 用: 0次
阅 读: 论文下载
 

内容摘要


一般学习算法使用全体训练样例去构造分类器,全体训练样例中往往包含噪音数据,冗余数据。但是有的算法对噪音数据特别敏感,有的算法对于大数据集效率特别低。样例挑选算法是依照某种原则从原始数据集中挑出有用的、具有代表性的样例子集,用这个子集中的样例训练出来的分类器的性能并不低于用全体样例训练得到的分类器。机器学习中的数据集的冗余数据和噪声数据会影响分类器的泛化能力和训练速度,而样例挑选算法具有压缩冗余和排除噪声的能力,对于提高分类器的泛化能力和提高训练速度有一定的意义。以往的增量决策树归纳中的样例顺序都是给定的,本文研究了一种在增量模糊决策树中的样例挑选方法,使得增量归纳过程的样例不再是数据集给定的顺序,用于生成最终决策树的样例也不再是数据集中的全体样例。该方法每次都选取当前决策树最不能确定其分类的样例增量加入决策树。本文给出了该方法的详细描述,并对该方法进行了较深入的理论分析。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-11
  1.1 研究背景  8-9
  1.2 研究现状  9
  1.3 研究日标  9-10
  1.4 论文结构  10-11
第2章 决策树学习  11-17
  2.1 决策树学习的基本概念  11
  2.2 决策树的表示方法  11-12
  2.3 ID3决策树算法思想  12-15
  2.4 模糊决策树学习算法  15-17
第3章 增量决策树  17-23
  3.1 增量决策树的概述  17-18
  3.2 增量决策树的算法  18-21
    3.2.1 ID4算法  18-19
    3.2.2 ID5R算法  19-21
  3.3 ID算法系列的比较分析  21-23
第4章 具有样例挑选策略的学习算法  23-26
  4.1 样例挑选概述  23-24
  4.2 常见的样例挑选算法  24-26
    4.2.1 主动学习算法  24
    4.2.2 IBL算法系列  24-25
    4.2.3 其他样例挑选算法  25-26
第5章 模糊决策树中基于样例测试结果最大熵的样例挑选算法  26-38
  5.1 算法的基本思想  26-27
  5.2 理论分析框架  27-29
  5.3 理论分析过程  29-35
    5.3.1 P_(ij)的变化和子结点熵的变化之间的关系  29-30
    5.3.2 样例性质分析  30
    5.3.3 新来样例加入决策树后对P_(ij)的影响  30-33
    5.3.4 样例测试结果熵与决策树的熵之间的关系  33-34
    5.3.5 一个问题的思考  34-35
  5.4 从数据分布角度分析  35
  5.5 实验及结果分析  35-38
第6章 结束语  38-39
参考文献  39-41
攻读硕士学位期间科研工作情况  41-42
致谢  42

相似论文

  1. 基于信息熵的课堂观察量化评价模型研究,G632.4
  2. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  3. 燃油喷雾粒度分布测量及其信息熵分析,TK407.9
  4. 一个基于聚类的神经网络样本自学习系统,TP391.6
  5. 数据冗余处理技术在轨道交通AFC系统中的应用,U285
  6. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  7. 基于判断矩阵一致性的判别方法研究,O151.21
  8. 蚁群算法在VANET路由协议的应用研究,TN929.5
  9. 基于改进GA的面向Agent多议题自动谈判研究,F715.4
  10. 基于未确知测度理论的高技术企业组织柔性评价研究,F224
  11. 基于低碳经济背景下云南省土地利用结构与碳排放量关系研究,F301
  12. 海洋产业结构对福建海洋经济的影响与结构优化研究,F127
  13. 基于生产负荷率预测的多供应商订单分配模型,F274
  14. 基于粗糙集理论的快速属性约简算法研究,TP18
  15. 免疫遗传算法及其在TSP中的应用研究,TP18
  16. 模糊粗糙集属性约简及多模糊决策树分类器融合,TP18
  17. 粗糙集中基于NBC聚类的连续属性离散化方法研究,TP18
  18. 基于信息熵蚁群聚类的模糊C-均值算法的研究,TP311.13
  19. 基于数据挖掘的移动中高端用户流失预警分析,TN929.5
  20. 河北省土地集约利用研究,F301
  21. 虚拟物流联盟风险控制研究,F252

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com