学位论文 > 优秀研究生学位论文题录展示

改进支持向量机及其应用

作　者: 陈渊
导　师: 袁哲明
学　校: 湖南农业大学
专　业: 生物信息学
关键词: 支持向量机 K近邻多分类转二分类特征选择定量构效关系 O-糖基化位点预测
分类号: TP18
类　型: 硕士论文
年　份: 2012年
下　载: 82次
引　用: 0次
阅　读: 论文下载

内容摘要

以统计学习理论为基础的支持向量机(Support Vector Machine, SVM)是机器学习领域的集大成者,包括支持向量分类(Support vector classify, SVC)和支持向量回归(Support vector regression, SVR)。SVM基于结构风险最小,有效地解决了小样本、非线性、过学习、维数灾难、局部极小等问题,泛化推广能力优异。本文从K-近邻训练样本选择、多分类转二分类、高维特征选择等方面进一步改进SVM并例证了其应用效果,结果报道如下。K-近邻训练样本选择。由于样本集的异质性,从训练集中选取与待测样本距离最近的k个样本(k-nearest neighbor, KNN)往往比选择全部n个样本(全局预测)预测精度更优(k<n)。因此,理论上基于KNN的SVR能充分利用其适于小样本的特点,在加快训练速度的同时提高预测精度。然而,最优k值的选取目前仍是悬而未决的难题：从训练集出发逐一试算搜索最优k值计算开销太大,且获得的是公用最优k值；事实上由于待测样本间存在差异,各待测样本的最优近邻数理应不同,不存在一个公用的最优k值。本文基于主成分分析(Principal Component Analysis、地统计学(Geostatistics, GS)和SVR,提出了一种新的定量构效关系(Quantitative Structure-Activity Relationship, QSAR)个体化预测方法—Weight-PC A-GS-SVR。其基本思路是：先以PCA降维并消除自变量间的信息冗余,继以SVR经非线性主成分筛选去除与因变量无关的主成分,再以保留主成分计算样本间的加权距离,然后以高维GS确定公用变程；每一个待测样本都以自身为中心从训练集中找出加权距离小于公用变程的私有k个近邻,以SVR训练建模完成个体化预测。Weight-PCA-GS-SVR从行、列两个方向对模型进行了优化,为自变量提供了一种新的加权方法,为解决最优k近邻选择难题提供了新的思路,并具有SVR原来的优点。经3个化合物活性实例数据集验证,新方法在所有参比模型中预测精度最高,且明显优于文献报道结果,Weight-PCA-GS-SVR在QSAR等回归预测领域有较广泛的应用前景。多分类转二分类。实际分类问题除了少量简单的二分类,大多属于复杂的多分类。多分类需转化为二分类进行识别。传统的“一对一”多分类转二分类,需构建k(k-1)/2个二分类器,过程繁琐；“一对余”多分类转二分类,仍需构建k个二分类器,且正负训练样本数往往极不均衡。无论是“一对一”还是“一对余”,其构建的单个二分类器均存在信息利用不充分、预测精度有待进一步提升等缺陷。如何将多分类恰当地转化为二分类意义重大。本文基于SVC,提出了一种新的多分类转二分类方法：先以初始样本互作转换将多分类转化为二分类,再以可交换核函数消除互作样本中初始样本排列顺序不同的影响,继以非线性筛选去除无关特征与冗余特征并给出各保留特征相对重要性排序,最后以简单投票决策校正独立预测结果。以前翅9个翅脉交叉点距离为初始特征,新方法应用于2科7种蝶类自动鉴别,种、科阶元26、24个随机初始测试样本均获得了100%的准确鉴别。新方法在昆虫自动识别等多分类领域有广泛应用前景。高维特征选择。并非每一个特征均对预测有用,无关、冗余特征增加模型复杂度的同时降低预测精度。从m个特征中选取p(p≤m)个最优特征子集理论上有2m(P未知)种可能,已知这是一个NP难问题,在m较大时无法穷举。独立最好的K个特征不一定是组合最好的K个特征,因此特征筛选必需采用封装器并在一个统一的模型中进行。采用封装器的多数现有非穷举启发式特征筛选方法存在易陷入局部最优的弊端。本文基于SVC提出了一种新的高维特征非线性快速筛选方法—随机矩阵法(Random Matrix, RM),以0(舍)、1(取)随机矩阵替换初始数据集,实现了高维特征的统一筛选。结合多尺度组分特征编码与RM高维特征非线性筛选,发展了一种新的蛋白质O-糖基化位点的预测方法—MSCAA-OGlySite。首先以多尺度组分提取了9723个序列特征,经RM筛选,S、T位点分别保留38、53个特征,将S位点、T位点独立预测精度从83%、81%分别提升到94%、92%。

全文目录

摘要  4-6
Abstract  6-11
第一章绪论  11-15
  1 选题背景、目的与意义  11-12
  2 支持向量机理论  12-15
    2.1 ERM原则与过拟合  12-13
    2.2 VC维与SRM原则  13
    2.3 小样本与转导推理  13-14
    2.4 核函数  14
    2.5 SVM的优点  14-15
第二章基于地统计学的个体化QSAR建模  15-23
  1 前言  15-16
  2 Weight-PCA-GS-SVR建模过程  16-19
    2.1 PCA  16
    2.2 非线性筛选主成分与保留主成分非线性加权  16-17
    2.3 高维地统计学确定变程  17-18
    2.4 基于变程a和SVR的个体化预测  18
    2.5 SVR与核函数  18
    2.6 预测评价指标与参比模型  18-19
  3 实例分析  19-20
  4 结果与讨论  20-21
  5 结论  21-23
第三章基于互作转换的蝶类识别  23-30
  1 前言  23
  2 数据与方法  23-26
    2.1 数据集  23
    2.2 初始样本互作转换  23-24
    2.3 LIBSVM 2.8软件包与SVC  24
    2.4 可交换核函数  24
    2.5 非线性特征筛选  24-25
    2.6 独立预测与简单投票决策  25-26
    2.7 聚类分析  26
  3 结果与分析  26-28
    3.1 种阶元自动鉴别结果  26
    3.2 聚类分析结果  26-27
    3.3 科阶元自动鉴别结果  27-28
  4 讨论  28-30
第四章基于多尺度组分与特征汰选的蛋白质O-糖基化位点预测  30-37
  1 前言  30-31
  2 数据与方法  31-33
    2.1 正样本数据集  31
    2.2 负样本数据集  31
    2.3 支持向量机  31
    2.4 十次交义验证  31-32
    2.5 评价指标  32
    2.6 多尺度组分特征编码(MSCAA)  32
    2.7 特征汰选  32-33
  3 结果与分析  33-35
    3.1 不同模型预测结果  33-34
    3.2 特征选择模型ROC曲线比较  34-35
  4 讨论  35-37
第五章总结与展望  37-39
  1 总结  37-38
  2 展望  38-39
参考文献  39-46
致谢  46-47
作者简介  47

改进支持向量机及其应用

内容摘要

全文目录

相似论文