学位论文 > 优秀研究生学位论文题录展示

基于一般广义熵及非平衡割点搜索的决策树学习

作 者: 赵慧琴
导 师: 王熙照
学 校: 河北大学
专 业: 计算机应用技术
关键词: 决策树 信息熵 Gini-Index 分割一般广义熵 非平衡割点 假设检验
分类号: TP181
类 型: 硕士论文
年 份: 2010年
下 载: 21次
引 用: 0次
阅 读: 论文下载
 

内容摘要


分类问题是机器学习领域最重要的学习问题之一,而决策树学习算法又是一种典型的分类学习算法。近几年来,对离散值和连续值属性决策树学习算法的研究和改进都已经取得了很大的进展。对于连续值属性的决策树学习算法,学者们提出了多种不同的属性选取标准,但到目前为止,这些选择标准只是处于分析各自的优缺点、比较优劣性的阶段,而没有对多种属性选择标准的共性进行研究。基于此研究现状,本论文主要做了以下三方面的贡献:本文首先根据已有的决策树属性选取标准—信息熵和Gini-Index所共有的特性,给出了一般广义熵函数的定义,并在此基础上提出了一种新的基于分割一般广义熵的连续值属性的决策树属性选取标准。其次,针对连续值属性决策树产生过程中计算的时间复杂度较大的缺点,我们引入了非平衡割点的概念,并通过严格的数学证明给出割点和非平衡割点的关系,即使分割一般广义熵极小化的割点一定是非平衡割点。这一结论表明在连续值属性决策树的产生过程中,平衡割点处的分割一般广义熵不需要计算。理论和实验分析均表明,对于那些训练规模较大,属性取值较多并且平衡割点相对较多的数据集来说,非平衡割点的引入大大减少了分割一般广义熵的计算次数,提高了算法的效率。最后,运用数理统计中假设检验的方法证明了用一般广义熵函数作为决策树的属性选择标准进行建树,在一定的显著性水平下,它们对数据集的扩展能力没有显著差异。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-15
  1.1 研究背景  9-10
  1.2 研究工作的目的与意义  10-11
  1.3 本课题的国内外发展现状  11-14
  1.4 本文的主要工作及内容安排  14-15
第2章 决策树学习算法简介  15-20
  2.1 决策树方法简介  15-17
    2.1.1 决策树的结构  15-16
    2.1.2 决策树学习的工作过程  16
    2.1.3 决策树的适用问题  16-17
  2.2 连续值属性的决策树简介  17-20
第3章 新的属性选择标准的提出  20-24
  3.1 熵函数的归纳  20-21
  3.2 分割一般广义熵  21-23
  3.3 本章小结  23-24
第4章 非平衡割点的分析和应用  24-36
  4.1 命题的证明  24-26
  4.2 引入非平衡割点的连续值属性的决策树算法归纳  26-27
  4.3 引入非平衡割点前后的实验结果以及有效性分析  27-35
    4.3.1 引入非平衡割点前后的实验结果  27-30
    4.3.2 引入非平衡割点后算法的有效性分析  30-35
  4.4 本章小结  35-36
第5章 一般广义熵函数的分析和归纳  36-43
  5.1 分割一般广义熵函数的特性  36-37
  5.2 问题描述  37-38
  5.3 假设检验的原理及其应用  38-41
    5.3.1 T-检验  38-39
    5.3.2 F-检验  39-41
  5.4 假设检验的结论  41-42
    5.4.1 方差未知,关于两个总体均值相等的结论  41
    5.4.2 均值未知,关于两个总体方差相等的结论  41-42
  5.5 本章小结  42-43
第6章 总结与展望  43-44
  6.1 研究总结  43
  6.2 研究展望  43-44
参考文献  44-47
致谢  47-48
攻读学位期间取得的科研成果  48

相似论文

  1. 基于信息熵的课堂观察量化评价模型研究,G632.4
  2. 基于支持向量机的故障诊断方法研究,TP18
  3. S-O-R模型的批判和预期效应的研究,B841
  4. 教学质量评估数据挖掘系统设计与开发,TP311.13
  5. 燃油喷雾粒度分布测量及其信息熵分析,TK407.9
  6. 僵尸控制行为识别及检测方法研究,TP393.08
  7. 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
  8. 基于粗糙集理论的决策树分类算法与应用研究,TP18
  9. 基于核心示例集的属性约简方法研究,O159
  10. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  11. 基于判断矩阵一致性的判别方法研究,O151.21
  12. 基于改进的ID3算法的蛋白质纯化方法研究,Q51
  13. 五种决策树算法的比较研究,TP311.13
  14. 信用卡风险管理技术及利润预测模型,F224
  15. 汉语语音合成系统的改进与实现,TN912.33
  16. 20CrMoH齿轮弯曲疲劳强度研究,TH132.41
  17. 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
  18. 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
  19. 蚁群算法在VANET路由协议的应用研究,TN929.5
  20. 数据挖掘在研究生调剂中的应用研究,TP311.13
  21. 基于决策树分类算法的Web文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com