学位论文 > 优秀研究生学位论文题录展示
基于支持向量机的不平衡数据分类研究及应用
作 者: 赵文娟
导 师: 韩逢庆
学 校: 重庆理工大学
专 业: 计算机应用技术
关键词: 支持向量机 不平衡数据 重新划分训练集 压缩凸包 信息基因
分类号: TP274
类 型: 硕士论文
年 份: 2011年
下 载: 73次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息时代人们需要对大量的数据进行处理,去寻找其规律并对其进行运用。分类是数据处理时经常要做的工作,因此分类问题成为机器学习域的一个重要研究内容。支持向量机方法通过核函数将训练集映射到一个高维空间,它可以实现有限样本在线性和非线性情况下分类。研究表明,支持向量机对平衡数据有较好的分类效果,但对不平衡数据分类效果较差,这是因为支持向量机的分类超平面由支持向量决定,多数类样本的支持向量个数也比少数类样本多,这种情况会造成分类超平面偏移,降低少数类样本的识别率,当样本严重失衡时甚至找不到少数类样本对应的分类规则。本文的主要研究目标是如何使用支持向量机方法对不平衡数据进行分类,主要工作与创新点包括以下几个方面:一、对支持向量机理论进行研究。分析经验风险最小化的局限性,介绍结构风险最小化原则及其优越性,详细总结支持向量机理论和研究现状。二、对不平衡数据分类方法进行研究。分析不平衡数据分类面临的问题,重点对各种不平衡数据分类方法进行归类和总结,且对各种方法的优缺点进行分析。三、给出一种基于聚类的数据集划分支持向量机方法DISVM。其主要思想是将多数类样本划分为一系列子集,将每个划分子集和少数类样本进行组合并用SVM方法分别进行训练,最后对各子分类器集成。该方法主要针对以往算法在进行数据集划分时没有考虑子集的划分规则的缺点进行改进,并通过实验证明了本方法对不平衡数据分类问题的有效性。四、给出了一种基于压缩凸包的不平衡数据支持向量机分类方法GSVM。分析了支持向量机的几何特性,先将两类样本向其重心方向压缩,再求两类样本压缩凸包的最近点对,并通过支持向量机方法生成分类超平面。实验证明,该方法有很好的分类性能。五、特征不平衡也是不平衡数据分类的一个重要方面,本文主要结合Golub等公布的急性白血病基因表达谱数据解决其特征不平衡问题。以往的方法仅考虑单个基因对疾病类别判断的影响,本文则主要考虑两个基因的相关性,并以此为度量来筛选候选基因,且通过实验验证了方法的有效性。
|
全文目录
摘要 4-5 Abstract 5-10 1 绪论 10-16 1.1 问题的提出及研究意义 10-11 1.2 研究背景与现状 11-14 1.2.1 不平衡数据分类研究现状 11-12 1.2.2 支持向量机研究现状 12-14 1.3 论文结构 14-16 2 支持向量机理论基础 16-28 2.1 引言 16 2.2 统计学习理论概述 16-20 2.2.1 经验风险最小化和期望风险 16-17 2.2.2 控制学习过程推广能力的理论 17-18 2.2.3 VC 维 18-19 2.2.4 结构风险最小化 19-20 2.3 支持向量机 20-25 2.3.1 线性情况 21-24 2.3.4 非线性情况 24-25 2.4 支持向量机的主要算法 25-27 2.4.1 分块算法 25 2.4.2 分解算法 25-26 2.4.3 顺序最小化算法 26-27 2.5 本章小结 27-28 3 不平衡数据分类方法概述 28-36 3.1 引言 28 3.2 不平衡数据分类面临的问题 28-30 3.2.1 训练样本数量不平衡问题 28-29 3.2.2 噪声数据的影响 29 3.2.3 决策面偏移的影响 29-30 3.3 不平衡数据分类策略 30-34 3.3.1 重采样方法 30-31 3.3.2 训练集划分方法 31-32 3.3.3 分类器集成方法 32 3.3.4 代价敏感学习方法 32-33 3.3.5 特征选择方法 33 3.3.6 其他方法 33-34 3.4 评测指标对不平衡数据分类的影响 34-35 3.5 本章小结 35-36 4 基于支持向量机的不平衡数据分类方法 36-50 4.1 基于SVM 的不平衡数据分类局限分析 36-38 4.1.1 SVM 与重采样方法相结合 37 4.1.2 SVM 与训练集划分方法相结合 37-38 4.1.3 代价敏感SVM 方法 38 4.1.4 其他SVM 不平衡数据分类方法 38 4.2 基于聚类的训练集划分支持向量机方法 38-43 4.2.1 分类器模型 39-40 4.2.2 实验数据与来源 40-41 4.2.3 实验结果与分析 41-43 4.3 基于SVM 的几何算法求解不平衡数据分类问题 43-48 4.3.1 理论基础 43-46 4.3.2 算法描述 46-47 4.3.3 实验数据与来源 47 4.3.4 实验结果与分析 47-48 4.4 本章小结 48-50 5 白血病基因表达数据特征筛选 50-60 5.1 基因微阵列表达数据 50-51 5.2 基因表达数据特征选择 51-52 5.3 问题的提出 52 5.4 实验数据与来源 52-53 5.5 解决方案一 53-55 5.5.1 具体方案 53-55 5.5.2 实验分析 55 5.6 解决方案二 55-58 5.6.1 具体方案 56-58 5.6.2 实验结果与分析 58 5.7 本章小结 58-60 6 总结与展望 60-62 致谢 62-64 参考文献 64-69 个人简历、在学期间发表的学术论文及取得的研究成果 69
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 城市污水处理厂中A~2O工艺过程的建模研究,X703
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|