学位论文 > 优秀研究生学位论文题录展示
不平衡数据分类研究及在肿瘤识别中的应用
作 者: 张金伟
导 师: 陆慧娟
学 校:
专 业: 计算机应用技术
关键词: 肿瘤分类 不平衡数据 过抽样 极限学习机 特征选择
分类号: R730.4
类 型: 硕士论文
年 份: 2012年
下 载: 112次
引 用: 1次
阅 读: 论文下载
内容摘要
摘要:机器学习被广泛应用于肿瘤分类,但是数据分布不平衡这种情况往往被忽略。肿瘤数据的样本数目一般只有几十或几百,而维数达到上千甚至上万,而且样本的类分布不平衡,充分体现了基因表达数据小样本、高维性、数据分布不平衡的特点。肿瘤数据分类,在很大程度上直接决定患者能否在最佳时间接受正确的治疗,关系到患者的生命。目前关于不平衡数据分类这个问题的解决方案主要分为两个角度:一是数据层面,改变训练样本的分布;二是算法层面,提出适合不平衡数据分类的新算法或改进现有算法。本文从数据层面和算法层面对基于极限学习机的不平衡数据分类进行研究,主要内容如下:(1)通过对代价敏感学习、过抽样和欠抽样三种方法的比较分析,实验证明对于样本数目小且类分布不平衡的数据,过抽样方法应优先考虑。(2)提出基于特征选择的过抽样算法:FS-Sampling,该算法从特征选择的角度考虑了样本的特征对分类的作用是不一样的。基于特征选择获取关键的特征列和SMOTE算法的思想,合成的少数类样本既保持对分类起关键作用的特征,又在一定程度上改变了其余的特征。实验证明,FS-Sampling能较好的平衡数据的分布,明显提高了少数类的分类精度,同时对整体的分类精度影响不大。(3)提出基于样本集分割的极限学习机集成算法:DS-E-ELM,将训练样本集等分成k个不相交的子集,组合k1个子集,这样得到k个新训练集,然后利用新训练集训练得到k个不同的分类器,最后通过多数投票的方法确定预测结果。实验证明DS-E-ELM不仅提高了少数类的分类精度,而且具有更好的稳定性,并保持了较低的时间复杂度。
|
全文目录
致谢 5-6 摘要 6-7 Abstract 7-9 目次 9-11 图清单 11-12 表清单 12-13 1 绪论 13-19 1.1 研究背景 13-14 1.2 研究现状 14-16 1.3 面临的挑战和研究意义 16-17 1.4 创新点 17 1.5 各章内容简介 17-19 2 极限学习机的理论及研究现状 19-27 2.1 单隐层神经网络 19-23 2.2 极限学习机简介 23-24 2.3 极限学习机的研究现状 24-27 3 不平衡数据的代价敏感学习与抽样算法的比较 27-37 3.1 引言 27 3.2 代价敏感学习 27-29 3.2.1 代价敏感学习 27-28 3.2.2 不平衡数据学习与代价敏感学习之间的关系 28 3.2.3 代价敏感支持向量机 28-29 3.3 抽样 29 3.4 研究现状 29 3.5 实验与结果分析 29-35 3.5.1 数据集 29-30 3.5.2 实验设置 30 3.5.3 实验结果与分析 30-35 3.6 小结 35-37 4 基于特征选择的过抽样算法 37-50 4.1 引言 37 4.2 基于遗传算法的特征选择方法 37-42 4.2.1 遗传算法简介 37-38 4.2.2 编码与适应度函数 38-39 4.2.3 选择交叉变异 39-40 4.2.4 GA-Selection 40-42 4.3 过抽样 42 4.4 算法描述 42-45 4.5 实验与结果分析 45-48 4.5.1 不平衡数据集分类的评价标准 45 4.5.2 数据集 45-46 4.5.3 实验设置和实验结果 46-48 4.5.4 实验分析 48 4.6 小结 48-50 5 极限学习机集成分类算法 50-57 5.1 引言 50-51 5.2 数据集分割 51 5.3 DS-E-ELM 算法 51-53 5.4 实验与分析 53-57 5.4.1 数据集 53 5.4.2 实验设置与实验结果 53-55 5.4.3 实验分析 55-56 5.4.4 小结 56-57 6 结论 57-59 6.1 研究总结 57-58 6.2 下一步需要开展的工作 58-59 参考文献 59-64 作者简历 64
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于特征选择的入侵检测研究,TP393.08
- 基于数据分布特征的文本分类研究,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 领域间适应性情感分类方法研究,TP391.1
- 数据校正技术在石化企业MES系统中的应用研究,TP315
- 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
- 中国民族音乐特征提取与分类技术的研究,J607
- 基于量子进化特征选择的SAR图像分割,TN957.52
- 油墨节省算法研究,TS802.3
- 不平衡数据集上支持向量机算法研究,TP18
- 最小二乘支持向量机算法及应用研究,TP183
- 基于加权特征选择的误用入侵检测研究,TP393.08
- 聚类技术及其应用研究,TP311.13
- 基于不平衡数据集的文本分类技术,TP391.1
- 基于组合抽样技术的集成学习算法研究与应用,TP181
- 基于支持向量机的不平衡数据分类研究及应用,TP274
- 利用多抽样率滤波技术快速并行实现实值离散Gabor展开与变换,TP391.41
- miRNA前体与成熟体预测方法的设计与实现,TP18
中图分类: > 医药、卫生 > 肿瘤学 > 一般性问题 > 肿瘤诊断学
© 2012 www.xueweilunwen.com
|