学位论文 > 优秀研究生学位论文题录展示

针对特征缺省数据集的模式识别方法与应用研究

作 者: 宋玉丹
导 师: 王士同
学 校: 江南大学
专 业: 计算机应用技术
关键词: 模式识别 支持向量机(SVM) 缺省数据集 特征缺少 非均衡数据集 类内方差 最大间隔 新奇检测
分类号: TP391.4
类 型: 硕士论文
年 份: 2011年
下 载: 26次
引 用: 0次
阅 读: 论文下载
 

内容摘要


模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。作为模式分类的研究方法之一的支持向量机技术近来也得到广泛的研究和应用。进行分类时,我们必备的两个条件,一个是分类器,另一个是数据集。在实际的应用中,由于获取数据的渠道和数据建模的差异等原因,人们所能收集到的大量信息往往是不完整的,存在缺少的特征或者是非均衡的,统称为缺省数据集。对特征缺少的数据集进行分类,目前的处理方法主要有直接删除法或者空值填充法;对于不平衡的数据,传统的方法是对较少的一类进行人为重采样或者对较多的一类进行删除,以此来减弱训练样本的不均衡性,但是这些修复方法会在一定程度上降低分类的准确性,并没有从根本上进行算法的改进。而且无论通过哪种方式修正,都无法避免主观因素对原系统的影响,并且花费的代价很大。缺省数据集分类算法的探索是随着数据获取、机器学习和信息检索的发展而出现的问题,是一个比较新的课题,国内外对该问题的研究还不成熟,但是它却非常具有现实意义,尤其是在容易丢失特征的车牌识别、语音识别、生物认证、医疗诊断、机器故障检测等领域具有十分广泛的应用前景。本文在对特征缺少和不平衡数据集的现有理论和算法进行回顾、探讨的基础上,有针对的提出了基于支持向量机的新算法,并通过实验证明。主要工作总结如下:第一部分为全文的绪论,对模式识别技术的发展和基于缺省数据集的分类现状进行了分析和综述。第二部分归纳简述了支持向量机的理论基础知识,包括机器学习的基本问题、统计学习理论以及传统支持向量机的基本算法和改进算法等。第三部分针对特征缺少数据的分类问题,阐述和分析了特征缺少的定义、特征缺少的产生机制以及处理准则,对当前处理特征缺少的研究成果进行分析;提出了基于最大间隔和最小类内方差的处理不完整数据的支持向量机方法,并利用UCI数据库中的数据进行了仿真实验。第四部分是对于非均衡数据集的分类问题的探讨,简单介绍了不平衡数据集的定义、特点及传统处理方法,并在现阶段研究成果的基础上,结合传统的一类支持向量机和两类分类算法提出了基于少量异常训练数据的最大间隔支持向量机算法,引入超平面与正负类之间的间隔,从而实现了有效利用少量异常数据进行新奇检测,并用医疗诊断,故障检测等领域的数据加以实验,证明了算法的有效性。第五部分对全文内容进行总结,提出了现有算法的不足之处并对以后的工作进行展望。

全文目录


摘要  3-4
ABSTRACT  4-9
第一章 绪论  9-13
  1.1 课题背景及研究意义  9-10
  1.2 国内外发展现状  10-11
    1.2.1 模式识别的发展  10
    1.2.2 支持向量机的发展  10
    1.2.3 数据集的发展  10-11
  1.3 本文主要研究内容和组织结构  11-13
第二章 背景知识  13-34
  2.1 机器学习  13-17
    2.1.1 机器学习的发展  13-14
    2.1.2 机器学习的函数模型  14-15
    2.1.3 机器学习的三个基本问题  15-16
    2.1.4 经验风险最小化  16
    2.1.5 复杂性和泛化性  16-17
  2.2 统计学习理论  17-21
    2.2.1 学习过程一致性的条件  18-19
    2.2.2 VC 维  19
    2.2.3 推广能力的界  19-20
    2.2.4 结构风险最小化  20-21
  2.3 最优化理论知识  21-24
    2.3.1 二次规划问题  21-22
    2.3.2 最优解的充要条件  22-23
    2.3.3 对偶问题  23-24
  2.4 支持向量机  24-32
    2.4.1 支持向量机的提出  24
    2.4.2 支持向量机的主要思想  24-27
    2.4.3 最优分类超平面和支持向量  27-28
    2.4.4 核函数和Mercer 条件  28-30
    2.4.5 支持向量机的特性  30-31
    2.4.6 支持向量机的新发展  31-32
  2.5 本章小结  32-34
第三章 基于特征缺省的最小类内方差支持向量机  34-45
  3.1 引言  34
  3.2 特征缺少  34-37
    3.2.1 特征缺失的原因和种类  34-35
    3.2.2 处理特征缺失的方法  35-37
  3.3 类内方差和分类间隔的重定义  37-38
    3.3.1 类内方差  37-38
    3.3.2 分类间隔  38
  3.4 问题优化及算法思想  38-41
    3.4.1 优化过程  38-40
    3.4.2 算法步骤  40-41
  3.5 实验结果和分析  41-44
    3.5.1 实验数据和实验环境  41
    3.5.2 实验结果  41-43
    3.5.3 实验分析  43-44
  3.6 本章小结  44-45
第四章 基于少量异常数据的最大间隔新奇检测方法  45-55
  4.1 引言  45-46
  4.2 非均衡数据集  46-47
    4.2.1 非均衡数据集的定义和应用  46
    4.2.2 处理非均衡数据集的几个常用算法方法  46-47
  4.3 新奇检测  47
    4.3.1 新奇检测问题的定义  47
    4.3.2 新奇检测的一般方法  47
  4.4 模型的建立及对偶问题  47-51
    4.4.1 模型的建立及算法思想  48-49
    4.4.2 对偶问题的解决  49-51
  4.5 决策函数及参数特性  51-52
    4.5.1 决策函数  51
    4.5.2 参数特性  51-52
  4.6 实验结果和分析  52-54
    4.6.1 数据集和实验环境  52-53
    4.6.2 参数选择和实验结果  53-54
    4.6.3 实验分析  54
  4.7 本章小结  54-55
第五章 总结与展望  55-56
  5.1 论文工作总结  55
  5.2 未来工作展望  55-56
致谢  56-57
参考文献  57-61
附录:作者在攻读硕士学位期间发表的论文  61

相似论文

  1. 基于流形学习的高维流场数据分类研究,V231.3
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 基于遗传算法的柑橘图像分割,TP391.41
  4. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  5. 基于回波包络的超声波入侵探测在军队警戒巡逻中的应用,E919
  6. 空间信息处理中基于模糊技术的数学模型的改进,O159
  7. 基于API Hook技术的Bot检测方法的研究与实现,TP393.08
  8. 基于广义动态模糊神经网络的肌电信号模式识别系统,TP183
  9. 表格手写内容识别系统的设计与实现,TP391.41
  10. PID参数自整定的研究与应用,TP273
  11. 河南省文化遗产价值指标体系研究,G122
  12. 动作表面肌电信号的非线性特性研究,TH772
  13. 基于CUDA的视频火灾检测系统,TP391.41
  14. 美元纸币关键信息的图像检测以及号码识别,TP391.41
  15. 基于SIFT特征和SVM的场景分类,TP391.41
  16. 基于SVM-RFE的潜在生物标志物选择算法研究,TP311.13
  17. 无缝钢管超声涡流一体化自动检测系统的研究与开发,TH878.2
  18. 基于DCE-MRI的乳腺病灶良恶性计算机辅助诊断研究,TP391.7
  19. 基于LabVIEW的典型通信信号调制、参数识别及模拟实验研究,TP274
  20. 智能手机二维码识别系统设计与实现,TN929.53
  21. 心音信号特征分析与识别算法的研究,R318.04

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com