学位论文 > 优秀研究生学位论文题录展示
改进代价敏感的决策树学习方法研究
作 者: 倪艾玲
导 师: 张师超;严小卫
学 校: 广西师范大学
专 业: 计算机软件与理论
关键词: 代价敏感学习 决策树 代价约束 主动学习
分类号: TP18
类 型: 硕士论文
年 份: 2006年
下 载: 194次
引 用: 1次
阅 读: 论文下载
内容摘要
从广义上讲,机器学习(Machine Learning)是以使其包括任何计算机程序通过经验来提高其任务处理性能的行为。如果机器能够真正完全地根据经验来自动提高,其影响将是空前的。为此,自从第一台电子计算机ENIAC问世以来,大批学者与专家就在为使其能够自我学习而不懈努力。到目前为止,针对特定学习任务的算法已产生[58][59],关于学习的理论认识已开始形成[60][61],其中,从特殊的训练样例中归纳出一般函数是机器学习的中心问题,而决策树学习则是应用最广的归纳推理算法之一[1][10]。决策树方法在实际中有着广泛的应用,如根据疾病分类患者[58];根据起因分类设备故障;根据拖欠支付的可能性分类贷款申请。这类问题的核心任务都是把样例分入各个可能的对应的类别中,因此称为分类问题(Classification problem)[1]。经典的分类问题是在假设为各种分类错误所要付出的代价相同的情况下,要求达到高的分类正确率。然而这种假设在实际应用中很难满足,如根据疾病分类患者问题中,将病人判断为健康者与将健康者判断为病人,这两种错误的诊断所要付出的代价一定是不相同的。针对此类问题,专家们提出了代价敏感的学习方法(Cost-sensitive Learning,CSL)。由于其在现实中广泛的应用,近年来一直是机器学习领域中的一个研究热点[20][51]。本文首先介绍了机器学习的主要研究领域,并分析了目前国内外关于代价敏感学习的理论与方法,指出现有的代价敏感学习方法的优点与不足。针对存在的问题与不足,提出了一些新方法,并通过实验证明本文所提出的方法的可行性与有效性。本文的主要内容如下(其中部分工作于参考文献[56][57][62]中发表):(1)简述决策树(Decision Tree)方法以及代价敏感学习(CSL)现有的方法,分析其优缺点。同时也介绍了与代价敏感学习密切相关的代价约束(Budget Learning)及主动学习(Active Learning)的概念和基本方法。(2)提出代价约束下的代价敏感学习的新方法。本论文改变了前人将代价敏感学习中各种代价(如获得每个实例的属性值的代价和发生错误判断时所要付出的代价)用同一代价尺度来衡量的习惯做法[20][47],取而代之用不同的代价尺度来衡量不同的代价。另外,在前人的部分
|
全文目录
中文摘要 4-6 Abstract 6-11 第一章 引 言 11-15 1.1 机器学习概述 11-12 1.1.1 机器学习问题的标准描述及主要研究问题 11 1.1.2 基于代价敏感(Cost-Sensitive Learning, CSL)的分类技术 11-12 1.2 目前研究状况 12-13 1.3 本课题的选题意义及主要研究内容 13-15 1.3.1 选题目的及意义 13 1.3.2 本论文主要研究内容和贡献 13-15 第二章 分类的相关概念及决策树算法 15-21 2.1 分类(Classification) 15-17 2.1.1 分类的基本概念 15-16 2.1.2 分类的基本技术 16-17 2.2 决策树算法(Decision Tree Algorithms) 17-21 2.2.1 决策树分类的基本思想 17-18 2.2.2 决策树学习算法介绍 18 2.2.3 ID3/C4.5 算法 18-20 2.2.4 决策树学习算法总结 20-21 第三章 代价敏感学习及相关问题 21-28 3.1 代价敏感度的学习(Cost-Sensitive Learning) 21-24 3.1.1 代价敏感学习基本概念 22-23 3.1.2 目前的研究状况 23-24 3.2 资源约束学习(Budget Learning)与主动学习(Active Learning) 24-28 3.2.1 资源约束问题及其应用背景 24 3.2.2 处理资源约束问题相关策略 24-25 3.2.3 主动学习的基本概念 25-26 3.2.4 传统的主动学习方法 26-27 3.2.5 扩展的主动学习方法 27-28 第四章 资源约束下的代价敏感决策树学习 28-51 4.1 概述 28-29 4.2 主要思想 29-32 4.2.1 代价敏感学习与决策树算法相结合 29-30 4.2.2 主动学习与资源约束 30 4.2.3 基于代价敏感的决策树分类方法 30-32 4.3 基本概念 32-36 4.3.1 测试代价和误分类代价 32-33 4.3.2 二维代价尺度 33-34 4.3.3 结点类标号的判断标准 34-35 4.3.4 FP 与 FN 的取值对分类结果的影响 35-36 4.3.5 专家的偏好 36 4.4 建立代价敏感的决策树实现方法 36-44 4.4.1 实现方法概述 36-37 4.4.2 主动学习方法选择空结点中的实例 37-38 4.4.3 选择分裂属性 38-42 4.4.4 用测试集进行测试 42-44 4.5 四种不同的实验结果比较 44-50 4.5.1 不同的空分支结点所占百分比对误分类代价的影响 44-47 4.5.2 有无空分支策略及不同的 Budget 对误分类代价的影响 47-48 4.5.3 经过空结点的实例的误分类代价的变化 48-49 4.5.4 不同分布的测试代价对实验结果的影响 49-50 4.6 小结 50-51 第五章 代价敏感决策树学习方法的进一步优化 51-58 5.1 概述 51 5.2 通过组合以降低测试代价 51-54 5.3 具体策略 54-55 5.4 实验结果与分析 55-57 5.5 小 结 57-58 第六章 总结与未来的工作 58-60 6.1 全文总结 58-59 6.2 未来工作 59-60 参考文献 60-64 读研期间发表的科研论文 64-65 致 谢 65
|
相似论文
- 基于支持向量机的故障诊断方法研究,TP18
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
- 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
- 基于决策树分类算法的Web文本分类研究,TP391.1
- 基于决策树的短期负荷预测系统研究与实现,TM715
- 南方针叶林遥感信息提取研究,TP79
- 基于多任务的多层次选择性集成学习的研究,TP181
- 保护隐私的分类挖掘技术研究,TP311.13
- 基于.NET的金银花信息服务系统的设计与实现,TP311.52
- 智能教室手势识别算法研究及交互原型系统设计,TP391.41
- An Expectation Maximization Application for Decision Tree Classifiers on Datasets with Missing Values,TP311.13
- 数据挖掘技术在保险行业中的应用研究,TP311.13
- 数据挖掘和SPC在生产过程质量控制中应用研究,TP311.13
- 数据仓库与数据挖掘技术在高校教学管理系统中的应用研究,TP311.13
- 基于数据挖掘技术的个性化健康体检套餐设计,TP311.13
- 基于DOM建模的网页木马检测的分类器设计,TP309.5
- 数据挖掘在计算机辅助诊断中的应用研究,TP311.13
- 数据挖掘技术在学生成绩分析中的应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|