学位论文 > 优秀研究生学位论文题录展示
类别不平衡数据的集成学习研究
作 者: 王晓芹
导 师: 张化祥
学 校: 山东师范大学
专 业: 计算机软件与理论
关键词: 不平衡数据集 集成学习 重采样技术 神经网络 BP算法
分类号: TP181
类 型: 硕士论文
年 份: 2010年
下 载: 133次
引 用: 0次
阅 读: 论文下载
内容摘要
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。在这些数据集中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效果变得很差。这样误分的代价是巨大的。类别不平衡问题由于其广泛的存在和自身的特殊性,已经成为机器学习和模式识别领域的焦点,是对传统分类方法的重大挑战。目前国际上对类别不平衡数据的研究主要集中在两个个层面:对数据集的处理和对分类算法的改进。对数据集的处理主要是用重采样的方法对数据集重构,改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样;对分类算法的改进主要是修改传统分类算法,使之适应类别不平衡数据分类,如代价敏感学习及基于Boosting的方法等。近几年也有学者提出将重构数据集和改进分类算法结合起来使用。对上述诸方法的研究已经取得瞩目的成就,在很大程度上改善了不平衡数据的分类现状,但是依然存在过度拟合、信息丢失等问题,影响了分类结果的可靠性和稳定性。因此,在不影响多数类分类精度的前提下提高少数类的识别率是一个很重要的研究课题。本文针对类别不平衡数据这一课题,从对数据集的处理以及分类算法的改进两方面展开研究,提出几种适合处理类别不平衡问题的新方法。本文的主要创新成果有:1.对数据集的处理:受级联结构的启示,提出了一种针对不平衡数据集分类的新方法,基于级联结构的Bagging分类方法(CasBagging)。该方法通过在每一级剔除一部分多数类样本的方式使数据集逐步趋于平衡,并应用欠取样技术得到训练集,用Bagging算法训练分类器,最后把每一级训练到的分类器集成为一个新的分类器。在weka平台上实现该算法,在10个UCI数据集上的实验结果表明,该方法优于原始Bagging和AdaBoost。2.对分类算法的改进:当用神经网络处理类别不平衡问题时,存在一个既定的事实,即少数类对误差函数的贡献要远远小于多数类的贡献,故训练出来的网络更倾向于识别多数类样本。针对这个问题,提出一种改进的反向传播算法WNN,在该算法中,首先根据样本所属的类别对其加权,少数类赋予较大权重,多数类赋予较小权重,然后重新定义了误差函数,使其在计算样本误差时考虑该样本的权重。在20个UCI数据集上的实验结果表明,该算法提高了少数类样本的识别率。3.提出一种不同于SMOTE方法的新型过取样算法NNSMOTE。采用非线性插值的思想,用神经网络为少数类合成新样本:对于每个少数类,首先找到它的k个近邻,然后用这些近邻作为神经网络的输入,训练出一个最大拟合这些近邻的新样本,作为人工合成样本参与到分类器的训练中。
|
全文目录
摘要 6-8 Abstract 8-10 第一章 绪论 10-13 1.1 研究的背景和意义 10-11 1.2 本文的组织结构 11-12 1.3 本文的研究内容及主要创新点 12-13 第二章 类别不平衡数据的分类学习 13-21 2.1 分类技术和典型的分类算法 13-15 2.1.1 分类技术 13 2.1.2 典型的分类方法 13-15 2.2 不平衡数据集的分类问题 15-19 2.2.1 不平衡数据集分类困难的原因 15-17 2.2.2 解决类别不平衡问题的主要方法 17-19 2.3 本章小结 19-21 第三章 基于重采样技术的不平衡数据集集成学习 21-27 3.1 集成学习技术 21-22 3.1.1 集成学习技术与分而治之技术的差异 21 3.1.2 集成学习的关键因素 21-22 3.2 重采样技术的相关理论知识 22-23 3.2.1 重采样方法的思想来源 22 3.2.2 著名的重采样方法 22-23 3.2.3 解决类别不平衡问题中用到的重采样方法 23 3.3 基于级联结构的不平衡数据集分类研究(CasBagging 算法) 23-26 3.3.1 经典Bagging 算法 23-24 3.3.2 基于级联结构的分类器 24 3.3.3 CasBagging 算法思想 24-26 3.4 本章小结 26-27 第四章 神经网络在类别不平衡问题中的应用 27-38 4.1 人工神经网络(ANN)概述 27-28 4.2 反向传播(BP)算法相关理论 28-30 4.2.1 梯度下降法则[4] 28-29 4.2.2 经典BP 算法 29-30 4.3 用加权BP 算法(WNN)解决类别不平衡问题 30-32 4.4 用神经网络优化的SMOTE 方法 32-37 4.4.1 有放回过取样的缺点 32-33 4.4.2 经典SMOTE 33-35 4.4.3 用神经网络优化的SMOTE 算法(NNSMOTE)思想 35-37 4.5 本章小结 37-38 第五章 评价标准和实验 38-50 5.1 评估标准 38-41 5.1.1 分类器的性能评估方法 38-39 5.1.2 不平衡数据集分类评价标准 39-41 5.2 实验环境 41 5.3 实验数据及预处理 41-43 5.4 CasBagging 实验 43-45 5.4.1 CasBagging 实验数据 43-44 5.4.2 CasBagging 实验结果分析 44-45 5.4.3 CasBagging 算法结论 45 5.5 WNN 算法实验 45-48 5.5.1 WNN 算法实验设计 45-46 5.5.2 WNN 实验结果及分析 46-48 5.6 NNSOMTE 算法实验 48-50 第六章 总结与展望 50-51 6.1 本文研究内容总结 50 6.2 进一步的工作 50-51 参考文献 51-54 攻读学位期间发表的学术论文和参与的项目 54-55 致谢 55
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 调频式电容位移传感器高速测频与非线性校正技术研究,TH822
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 红外超光谱图像的虚拟探测器研究,TP391.41
- 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 视觉伺服四自由度机械臂的研究,TP242.6
- 机械臂视觉伺服系统的研究,TP242.6
- 压电驱动微工作台的控制与校正技术研究,TP273
- 某武器检测装置的控制系统设计,TP183
- 市级旅游用地规划环境影响评价研究,X820.3
- 珠三角地区高性能混凝土配合比智能化系统,TU528
- 大学生综合素质测评研究,G645.5
- 不具备全局Lipschitz条件的时滞细胞神经网络的反周期解研究,TP183
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于神经网络辨识的同步发电机励磁控制研究,TM31
- 基于BP神经网络的水稻干燥智能控制研究,S226.6
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 海上平台消防系统研究,U698.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|