学位论文 > 优秀研究生学位论文题录展示

代价敏感特征选择算法及其在软件缺陷预测中的应用

作 者: 缪林松
导 师: 张道强
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: 代价敏感特征选择 软件缺陷预测 迭代代价敏感特征选择 代价敏感学习
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 45次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着人们在通信、制造、研究等领域所获取的高维数据的积累,现有的数据挖掘、机器学习算法已经不能有效应对这些海量数据。特征选择通过消除不相关特征和冗余特征达到对高维数据降维的目的,其有效的提高了数据挖掘算法的效率、精度等性能以及后续学习结果的可理解性。传统的特征选择算法都是基于类均衡这一前提提出。然而,现实生活中还存在着众多的类不均衡问题。另一方面,传统的特征选择算法也未能考虑到现实应用中存在的代价敏感问题,其在特征选择过程中未曾考虑不同类别样本的不同错分类代价。因此,本文对类不均衡问题和代价敏感问题进行研究,提出了能够在特征选择阶段解决以上问题的代价敏感特征选择算法,并进一步对基于邻接图的代价敏感特征选择算法进行了改进。主要创新和研究工作总结如下:(1)结合代价敏感学习算法的思想,将代价敏感信息引入传统的特征选择算法中,提出了代价敏感特征选择算法CSVS、CSLS、CSCS。代价敏感特征选择算法能够在特征选择阶段解决降维问题、类不均衡问题和代价敏感问题,其在公共数据集UCI以及软件缺陷预测数据集NASA上均获得了很好的性能。(2)针对Cost-Sensitive Laplacian Score算法所基于的邻接图构建后不变的缺点,提出了基于迭代思想的Iterative Cost-Sensitive Laplacian Score算法。该算法通过迭代构造邻接图,有效地提高了特征评价准则对每个特征的评估准确性。其在UCI数据集以及NASA数据集上获得了良好的性能。(3)通过将代价敏感特征选择算法引入软件缺陷预测领域,并结合代价敏感学习算法,提出了基于双重代价敏感学习的软件缺陷预测模型。该模型有效地解决了软件缺陷预测领域的类不均衡问题和代价敏感问题,在软件缺陷预测数据集NASA上的结果充分证明了其有效性。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-17
  1.1 研究背景及其意义  10-11
  1.2 特征选择算法简介  11-12
    1.2.1 特征选择基本概念  11
    1.2.2 特征选择的分类  11-12
      1.2.2.1 按训练样本是否有标号划分  11
      1.2.2.2 按与后续学习算法的关系划分  11-12
      1.2.2.3 按输出类型划分  12
  1.3 软件缺陷预测简介  12-14
    1.3.1 软件缺陷预测概述  12-13
    1.3.2 基于机器学习的静态软件缺陷预测  13-14
  1.4 代价敏感学习简介  14-15
  1.5 本文的研究工作  15-16
  1.6 本文的内容安排  16-17
第二章 代价敏感特征选择  17-37
  2.1 引言  17-18
  2.2 三种代价敏感特征选择算法  18-23
    2.2.1 典型特征选择算法介绍  18-20
      2.2.1.1 Variance Score 特征选择算法  18-19
      2.2.1.2 Laplacian Score 特征选择算法  19
      2.2.1.3 Constraint Score 特征选择算法  19-20
    2.2.2 代价敏感特征选择算法思想概述  20-21
    2.2.3 CSVS 特征选择算法  21
    2.2.4 CSLS 特征选择算法  21-22
    2.2.5 CSCS 特征选择算法  22-23
  2.3 实验结果与分析  23-35
    2.3.1 实验设置  23-24
    2.3.2 UCI 数据集  24-26
    2.3.3 NASA 数据集  26-29
    2.3.4 实验讨论  29-35
  2.4 本章小结  35-37
第三章 迭代 Cost-Sensitive Laplacian Score 算法  37-46
  3.1 引言  37-38
  3.2 Iterative Cost-Sensitive Laplacian Score 算法  38-40
  3.3 实验结果与分析  40-45
    3.3.1 实验设置  40
    3.3.2 UCI 数据集  40-45
    3.3.3 NASA 数据集  45
  3.4 本章小结  45-46
第四章 基于双重代价敏感学习的软件缺陷预测  46-56
  4.1 引言  46-47
  4.2 基于双重代价敏感学习的软件缺陷预测模型介绍  47-49
    4.2.1 代价敏感分类器  47-48
    4.2.2 双重代价敏感软件缺陷预测模型  48-49
  4.3 实验结果与分析  49-55
    4.3.1 实验设置  49-51
    4.3.2 NASA 数据集  51-55
  4.4 本章小结  55-56
第五章 总结与展望  56-58
  5.1 已有工作总结  56-57
  5.2 未来工作展望  57-58
参考文献  58-68
致谢  68-69
攻读硕士学位期间发表的学术论文  69

相似论文

  1. 代价敏感的缺失值填充若干问题研究,TP311.13
  2. 基于代价敏感学习的信用卡客户价值分类研究,TP18
  3. 基于贝叶斯网络的软件缺陷预测管理系统,TP311.53
  4. 基于模糊支持向量回归的软件缺陷预测,TP311.53
  5. 改进PSO与模糊积分软件缺陷预测方法研究,TP311.53
  6. 基于数据挖掘的客户流失预测实证研究,F224
  7. 基于改进支持向量机的信用卡客户细分模型,F830.42
  8. 结合代价敏感与半监督学习的乳腺癌辅助诊断算法研究,R737.9
  9. 基于SVM的Web应用缺陷预测方法,TP393.092
  10. 基于ROC的分类算法评价方法,TP181
  11. 基于PCA的软件缺陷预测方法研究,TP311.52
  12. 基于贝叶斯网络的软件缺陷预测技术研究与应用,TP311.52
  13. 改进代价敏感的决策树学习方法研究,TP18
  14. 代价敏感的支持向量机监督学习研究,TP18
  15. 支持向量机及其在入侵检测中的应用研究,TP393.08
  16. 基于代价敏感的乳腺癌自动诊断方法研究及其应用,R737.9
  17. 代价敏感异常分类算法研究,TP393.08
  18. 面向非均衡数据集的机器学习及在地学数据处理中的应用,P628.1
  19. 基于改进代价敏感支持向量机的铜闪速熔炼工况评估模型研究及应用,TF811
  20. 基于相关向量机的油浸式电力变压器故障诊断方法研究,TM411
  21. 基于机器学习的软件缺陷预测技术研究,TP311.53

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com