学位论文 > 优秀研究生学位论文题录展示

面向蛋白质结构预测的计算生物学技术研究

作　者: 何洁月
导　师: 董逸生
学　校: 东南大学
专　业: 计算机应用技术
关键词: 数据挖掘机器学习统计学粒计算支持向量机计算生物学蛋白质结构预测
分类号: TP399-C8
类　型: 博士论文
年　份: 2006年
下　载: 687次
引　用: 1次
阅　读: 论文下载

内容摘要

随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学中的研究内容之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预测问题,而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖掘领域,机器学习和统计学领域研究的热点。本论文的主要工作是从海量数据的处理、预测的可解释性和提高预测精度等主要方面入手,对计算生物学中面向蛋白质结构预测的模型、方法和关键技术进行系统地研究,在结合本文提出的基于粒计算预测模型的基础上,试图将数据挖掘、机器学习和统计学习理论中针对分类预测的优势方法和技术有机地融合起来,以期形成一种新的生物数据分类预测综合系统框架,基于此框架未来发展出一种可适应强、可解释性好以及计算效率高的新型智能预测系统。论文工作的主要成果表现在以下几个方面:1.针对海量数据的复杂生物数据分类预测,本论文提出了一个新型的基于粒计算的支持向量机预测模型(SVM_GC)。该模型利用粒计算理论、聚类算法和先进的统计学习方法,在由聚类算法所智能分割的信息粒上建立各个SVM_GC模型,使得各个SVM_GC模型更简单与专一,并易于并行化,从而分解海量数据的处理,同时有效地解决了海量数据的多分类问题。2.在生物计算的可解释性方面,本文提出了规则生成模型SVM_DT,将支持向量机和决策树结合进行规则抽取,应用于蛋白质结构的预测结果解释。这样,既可发挥支持向量机泛化能力强的优势,又利用了决策树可解释性好的特点。实验结果表明,SVM_DT的可理解性高于SVM,其泛化能力优于决策树。更重要的是这些规则显示了重要的生物学意义,能有效地指导“湿实验”。3.面对产生的数量巨大的规则集,研究者难于解释与分析。为此,本论文提出了规则聚集与超级规则生成算法(C_SuperRule)。利用k-mean聚类算法,基于规则相似度对大量规则进行聚类,然后对各个簇的规则进行聚集以产生新的超级规则。这些超级规则代表了规则的摘要和潜在的分类关系,并具有较高的预测精度。由于这些超级规则来自于聚类,研究者易于理解总的趋势,而忽略单个规则可能引起的噪音。同时,不仅可以关注超级规则所代表的领域关键方面,而且可以有选择性地查看对应的原始规则的细节,从而方便了研究者对规则的分析与使用。4.为了降低生物数据中的噪音和孤立点对预测的影响,本文提出了基于遗传算法和惊奇模式的加权主动学习模型。根据样本数据的惊奇模式对输入样本点加权,从而使不同的数据点在训练学习时产生不同的贡献;利用遗传算法进行优化搜索参数,并利用阵列机实现了遗传算法的并行化,加快了训练进程。通过支持向量机的主动学习,从而提高了支持向量机抵抗噪音和孤立点影响的能力。实验研究结果表明本文所提出的模型是有效的并具有良好的发展前景。

全文目录

摘要  4-5
ABSTRACT  5-10
第一章绪论  10-22
  1.1 研究背景  10-14
    1.1.1 计算生物学的产生及发展  10-11
    1.1.2 蛋白质结构预测  11-12
    1.1.3 需要研究新的预测方法  12-14
  1.2 研究现状  14-18
    1.2.1 实验统计法  14-15
    1.2.2 最近邻法（Nearest Neighbor）  15
    1.2.3 基于隐马尔夫链（Hidden Markov Models）  15
    1.2.4 神经网络（Neural Network）  15-16
    1.2.5 基于核函数的方法（Kernel-Based Methods）  16
    1.2.6 预测方法的汇总与分析  16-17
    1.2.7 在计算生物学中SVM面临的问题  17-18
  1.3 本文主要研究内容  18-20
    1.3.1 基于粒计算的支持向量机（SVM_GC）技术  18-19
    1.3.2 规则生成与预测理解技术  19
    1.3.3 基于遗传算法和惊奇模式的加权主动学习技术  19-20
  1.4 论文工作的主要成果  20-21
  1.5 论文的组织结构  21-22
第二章相关研究基础  22-36
  2.1 蛋白质结构  22-23
  2.2 蛋白质结构预测  23-26
    2.2.1 蛋白质二级结构预测  24-25
    2.2.2 蛋白质局部三级结构预测  25-26
  2.3 统计学习理论  26-30
    2.3.1 学习问题的表示  26-27
    2.3.2 经验风险最小化  27
    2.3.3 统计学习理论的核心内容  27-30
      2.3.3.1 学习过程一致性的条件  28
      2.3.3.2 学习VC 维与泛化性的界  28-29
      2.3.3.3 结构风险最小化原则  29-30
  2.4 支持向量机  30-35
    2.4.1 线性支持向量机－最优分类面  30-32
    2.4.2 线性不可分支持向量机－软分类间隔  32-33
    2.4.3 非线性支持向量机－核函数  33-35
  2.5 本章小结  35-36
第三章基于粒计算的支持向量机（SVM_GC）  36-48
  3.1 问题的提出  36-37
  3.2 相关的研究  37-39
    3.2.1 支持向量机中大容量数据快速处理方法  37-39
      3.2.1.1 (QP)问题分解  37-38
      3.2.1.2 训练样本选择  38-39
    3.2.2 支持向量机中多分类问题处理方法  39
  3.3 基于粒计算的支持向量机（SVM_GC）模型  39-46
    3.3.1 粒计算与信息粒  40-43
    3.3.2 在信息粒中建立SVM_GC 模型  43-44
      3.3.2.1 预测精度的计算及粒簇组的划分  43-44
      3.3.2.2 SVM_GC 模型的建立算法  44
    3.3.3 根据SVM_GC 模型进行预测  44-46
  3.4 实验评价  46-47
    3.4.1 训练数据集与独立的测试集  46
    3.4.2 结果与分析  46-47
  3.5 本章小结  47-48
第四章规则生成与预测理解技术  48-74
  4.1 引言  48-49
  4.2 相关研究  49-50
  4.3 支持向量机与决策树相结合的规则生成算法  50-53
    4.3.1 决策树  50-51
    4.3.2 SVM_DT 算法描述  51-53
  4.4 蛋白质二级结构预测规则生成  53-61
    4.4.1 特征空间转换  53-54
    4.4.2 实验设置与结果分析  54-58
    4.4.3 具有生物意义的蛋白质二级结构预测规则集  58-61
  4.5 跨膜蛋白质片段结构预测规则生成  61-67
    4.5.1 数据集与特征空间转换方案  61-62
    4.5.2 跨膜蛋白质片段结构预测规则生成实验  62-64
    4.5.3 用于跨膜蛋白质二级结构预测理解的规则集  64-67
  4.6 规则聚集和超级规则的生成  67-72
    4.6.1 超级规则生成算法  67-70
    4.6.2 实验结果与分析  70-72
  4.7 本章小结  72-74
第五章基于遗传算法和惊奇模式的加权主动学习  74-85
  5.1 引言  74
  5.2 相关研究  74-75
  5.3 基于遗传算法和惊奇模式的加权主动学习  75-80
    5.3.1 加权支持向量机  75-76
    5.3.2 惊奇模式的产生  76-78
    5.3.3 样本权重的计算  78
    5.3.4 遗传算法优化选择参数  78-80
  5.4 加权主动学习模型(GA_SP_WSVM)  80-84
    5.4.1 模型的建立  80-83
    5.4.2 实验与结果分析  83-84
  5.5 本章小结  84-85
第六章总结与展望  85-88
  6.1 论文总结  85-86
  6.2 进一步的研究工作  86-88
参考文献  88-95
附录一：攻读博士学位期间发表及录用的论文  95-97
附录二：攻读博士学位期间所参加的研究项目  97

面向蛋白质结构预测的计算生物学技术研究

内容摘要

全文目录

相似论文