学位论文 > 优秀研究生学位论文题录展示
不平衡小样本数据的特征提取与分类方法研究
作 者: 陶存贵
导 师: 苏小红
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 不平衡小样本 特征提取 特征融合 重抽样 支持向量机分类
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 88次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着机器学习和数据挖掘等应用领域的扩展,人们遇到越来越多的不平衡小样本数据。所谓的不平衡小样本数据是指相对样本维度而言,样本数目过少,而且不同类别的样本数目及分布相差很多。高维小样本数据给传统的机器学习算法带来很大的挑战,模型建立所需的时间和空间资源要求很高。此外样本的不平衡性给传统模式识别算法也带来了很大的困难。传统的学习算法都是建立在平衡数据集的基础之上的,当样本出现不平衡时,这些学习算法的性能往往会明显下降。本文主要针对样本出现不平衡性和小样本性的学习问题展开研究:首先,对于小样本数据本文采用经典的特征提取算法先对数据进行特征提取,将维度降低。对于特征提取算法某些参数的设置问题,本文摒弃现有的根据经验值设定的方法,引入粒子群优化算法来实现对参数的自动寻优。特征提取算法往往有线性、非线性、有监督和无监督之分,本文提出在决策级将不同的特征提取算法进行融合,充分利用各特征提取算法的优点,扬长避短。对于特征提取算法的评估方法,本文采用特征提取结果在支持向量机分类器上获得的识别率作为评估算法的指标。然后,在数据层面上对不平衡数据集进行平衡化处理,包含对正例样本的过抽样处理以及对负例样本的欠抽样处理。利用改进的SMOTE算法对正例样本进行过抽样处理,人工注入样本使得正例样本的数目增加。在负例样本的欠抽样处理中,本文将谱聚类算法引入其中,选取负例样本的子集以使数据集在正负例样本的数目上趋于平衡。最后,在算法层面上对样本的不平衡性进行处理,通过引入基于权重的支持向量机和AdaBoost算法对分类算法进行改进。算法训练出多个基分类器,然后将多个基分类器组合成强分类器。对于不平衡数据集上建立的分类器的性能度量指标,本文不采用通常的识别率作为算法的性能度量值,而是采用ROC曲线下方的面积AUC值,以兼顾正负例样本的分类效果。这样,通过数据层面和算法层面的双重处理,就可以应用传统的学习方法来对不平衡数据集进行挖掘有用信息并加以分析。此外,处理过的不平衡小样本数据集能够利用较少的时间和空间建立模型。最后,在UCI公共数据集和人工数据集上分别对文中算法的有效性进行了验证。本文的方法能在一定程度上解决小样本性和不平衡性给传统的机器学习算法带来的困难。除此之外,本文中特征提取算法的参数优化方法对于更好地挖掘原数据中的信息具有重要意义。
|
全文目录
摘要 4-6 Abstract 6-8 目录 8-11 第1章 绪论 11-20 1.1 研究目的和意义 11-13 1.2 国内外研究现状分析 13-16 1.2.1 降维算法研究现状 13-14 1.2.2 分类学习算法研究现状 14-15 1.2.3 机器学习中不平衡数据集问题研究现状 15-16 1.3 论文的主要研究内容 16-18 1.3.1 小样本数据的特征提取方法研究 16-17 1.3.2 不平衡数据集的平衡化处理方法研究 17 1.3.3 不平衡数据集的分类方法研究 17 1.3.4 本文的总体研究方法 17-18 1.4 论文的章节安排 18-20 第2章 基于粒子群优化的特征提取算法研究 20-45 2.1 基于核线性鉴别分析的特征提取算法 20-26 2.1.1 线性鉴别分析 20-22 2.1.2 非线性映射的引入 22-24 2.1.3 KLDA 算法 24-26 2.2 基于核局部保持投影的特征提取算法 26-30 2.2.1 流形学习简介 26-27 2.2.2 拉普拉斯特征值映射 27-28 2.2.3 局部保持投影算法 28 2.2.4 非线性的核局部保持投影算法 28-30 2.3 基于核主元分析的特征提取算法 30-32 2.4 基于同时图优化和降维的特征提取算法 32-33 2.5 基于粒子群参数优化的特征提取算法 33-37 2.6 特征提取融合方案 37-39 2.6.1 传统的基于串联的融合方法 37 2.6.2 基于加权平均的融合方案 37 2.6.3 决策级融合方案 37-39 2.7 实验结果及分析 39-44 2.7.1 数据集及实验环境描述 39-40 2.7.2 参数优化结果 40-41 2.7.3 基于最优参数的特征提取算法实验结果 41-42 2.7.4 基于最优参数的高维数据集的可视化结果 42-43 2.7.5 基于决策级融合的特征提取算法实验 43-44 2.8 本章小结 44-45 第3章 不平衡样本的平衡化处理方法研究 45-61 3.1 基于改进 SMOTE 算法的正例样本的过抽样处理 45-47 3.1.1 经典的 SMOTE 算法 45-46 3.1.2 改进的 SMOTE 算法 46-47 3.2 基于谱聚类的负例样本的欠抽样处理 47-50 3.2.1 谱聚类算法 47-48 3.2.2 基于谱聚类的样本欠抽样处理算法 48-50 3.3 联合谱聚类和改进 SMOTE 算法的样本平衡化处理算法 50 3.4 实验结果及分析 50-60 3.4.1 人工数据集的实验结果 51-54 3.4.2 UCI 数据集上的实验结果 54-58 3.4.3 算法的性能分析 58-60 3.5 本章小结 60-61 第4章 不平衡样本的分类方法研究 61-77 4.1 支持向量机分类器的基本原理 61-64 4.1.1 分类器的概念 61 4.1.2 SVM 简介 61-64 4.2 集成学习方法 64-65 4.2.1 集成学习的概念 64-65 4.2.2 AdaBoost 算法 65 4.3 基于 AdaBoost-SVM 的不平衡数据集的分类方法 65-66 4.4 常用的分类算法评估准则 66-67 4.5 基于 ROC 曲线的分类算法性能评估准则 67-73 4.5.1 ROC 曲线的产生算法 67-71 4.5.2 AUC 值的计算方法 71-73 4.6 实验结果及分析 73-76 4.6.1 人工数据集上的实验 73-74 4.6.2 UCI 数据集上的实验 74-76 4.7 本章小结 76-77 结论 77-78 参考文献 78-83 攻读硕士学位期间发表的论文及其它成果 83-85 致谢 85
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 视频中多运动目标分类的研究,TP391.41
- 基于茧丝纤度序列的多总体分类判别及其比较,O212
- 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
- 压感指纹识别系统关键技术的研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|