学位论文 > 优秀研究生学位论文题录展示
多分类器集成技术研究
作 者: 康恒政
导 师: 杨燕
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 数据挖掘 分类 分类集成 Boosting Bagging
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 82次
引 用: 1次
阅 读: 论文下载
内容摘要
作为数据挖掘领域中一项重要的技术,分类技术在许多方面有着广泛的应用,目前存在着很多的分类技术,如决策树、支持向量机等。为了达到比较好的预测效果,传统的操作中,常常通过训练集产生多个分类模型,再用测试集逐个测试其分类性能,把性能最好的一个作为最终的分类模型。但是单个分类模型的预测性能毕竟有限,而且每个分类器都有其适合分类的数据区域,它可能对测试集表现出比较好的效果,但是对待测数据却没有很好的效果,这体现了单个分类器分类性能的不稳定性。而通过对多个单分类器进行有效地组合既可以提高分类的性能,又可以保证预测结果的稳定性,在这种情况下,分类集成技术应运而生。分类集成技术主要是通过对多个单分类器进行组合来提高分类性能,这些单分类器被称为基分类器,它主要包括两个部分:基分类器的产生方式和基分类器的组合方式。Boosting算法是分类集成学习中比较有代表性的方法,它产生基分类器时,通过在训练集样本上维护一套权重分布,使每次训练产生的基分类器关注不同的样本;Bagging方法也是一种比较重要的分类集成技术,它通过每次有放回抽样来产生基分类器,每个样本被选中的机会是完全相等的。MultiBoost方法可以看作Boosting方法和Wagging方法的结合,经过验证,它相对于Boosting方法和Wagging方法有较低的错误率,它主要是对训练集指定一套符合泊松分布的权重,然后生成基分类器。本文通过对这些方法进行分析,提出了两种改进的训练集样本加权方法用于产生基分类器。.基分类器的组合方式是分类集成中另一个重要的方面,在基分类器的输出是类别的情况下,目前常用的是投票法;Bagging方法用的是简单投票法,每个基分类器的投票在最终决策中是相同的,Boosting方法是根据基分类器的分类错误率对每个基分类器给予一个投票权重,最终的决策运用有权投票技术。本文详细分析了有权投票技术,在此基础上,针对不同方面的考虑,提出了两种投票权值调整的方法。最后通过实验对本文所提算法进行了实验验证,结果显示,本文所提方法可以进一步提高分类性能。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-17 1.1 研究背景 11 1.2 国内外研究现状 11-15 1.2.1 国外研究现状 12-14 1.2.2 国内研究现状 14-15 1.3 本文主要内容和结构安排 15-17 第2章 理论基础 17-33 2.1 数据挖掘 17-18 2.2 分类技术概述 18-21 2.2.1 分类的概念及算法 18-20 2.2.2 分类器性能评价标准 20-21 2.3 分类集成技术概述 21-29 2.3.1 集成学习的作用 23 2.3.2 分类集成的拓扑结构 23-25 2.3.3 基分类器的生成方式 25-27 2.3.4 基分类器的组合方式 27-29 2.4 分类集成学习中的典型算法 29-32 2.4.1 Boosting算法 29-30 2.4.2 Bagging算法 30-32 2.4.3 Wagging算法 32 2.4.4 MultiBoost算法 32 2.5 本章小结 32-33 第3章 两种训练样本加权方式 33-39 3.1 经典集成方法中样本加权分析 33-34 3.2 分层样本加权方法 34-35 3.3 基于分类输出的加权方法 35-37 3.4 本章小结 37-39 第4章 两种投票权值调整方式 39-45 4.1 投票方法分析 39-40 4.2 动态投票权值调整方法 40-41 4.3 基于验证情况的投票权值调整法 41-44 4.4 本章小结 44-45 第5章 实验结果和分析 45-58 5.1 评价方法 45-46 5.2 实验数据集介绍 46-47 5.3 训练集加权实验 47-49 5.4 投票权值调整实验 49-52 5.5 集成技术在车辆欠费预测中的应用 52-57 5.6 本章小结 57-58 结论与展望 58-60 致谢 60-61 参考文献 61-65 攻读硕士学位期间发表的论文 65
|
相似论文
- K公司计划及预测改进对于合理库存配置的研究,F224
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于串核的蛋白质分类算法的研究与实现,TP301.6
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 上下文相关的词汇复述研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 多样性密度学习算法的研究与应用,TP181
- 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 计算智能在数字化卷烟叶组配方中的应用研究,TS44
- 基于中国土壤系统分类的土壤类型和界线确定研究,S155
- 弯孢属种分子鉴定体系的建立及其在疑难种上的应用,Q949.32
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 面向公众的教育视频共建共享平台的设计与实践研究,G434
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|