学位论文 > 优秀研究生学位论文题录展示

基于统计建模方法的蛋白质结构预测研究

作　者: 王明会
导　师: 冯焕清
学　校: 中国科学技术大学
专　业: 生物医学工程
关键词: 蛋白质结构建模方法预测研究生物信息学蛋白质激酶磷酸化位点支持向量机亚细胞定位预测方法预测精度
分类号: Q51-3
类　型: 博士论文
年　份: 2006年
下　载: 535次
引　用: 0次
阅　读: 论文下载

内容摘要

从20世纪80年代末开始，生物信息学(Bioinformatics)逐渐兴起并开始蓬勃发展。生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学，它不仅是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。生物信息学的发展将会对生命科学带来革命性的变革，它不仅会对相关基础学科起巨大的推动作用，还会对农业、医药、卫生、食品等产业产生巨大的影响。当前生物信息学研究的一个主要方向是发展基于统计建模的预测方法，例如隐马尔科夫模型、支持向量机、k近邻等方法。相对于传统的方法，这些方法具有速度快、自动化程度高的优点，尤其适用于高通量大规模序列数据的分析。本文主要以蛋白质的结构和功能的预测为应用背景，对上述这几种基于统计建模的预测方法进行了较深入的研究，旨在提高它们在特定的预测应用中的精度和效率。本文主要在以下几个方面进行了有成效和有特色的研究： 1．跨膜螺旋是蛋白质家属中极为重要的一种类型，在几乎所有的活细胞和信号传输中都起着重要作用，人类基因组中相当一部分蛋白质编码为螺旋连接的跨膜段的形式。因此，对跨膜段的正确预测是实现蛋白质功能预测的重要步骤。本文针对跨膜蛋白序列的生物学特征，提出了一种新的隐马尔科夫模型分段训练算法，对跨膜螺旋的分段位点以及螺旋方向等特征进行了建模和预测。同标准训练算法相比，该算法具有时间复杂度低、预测精度高等优点。对于包含160条跨膜螺旋的蛋白序列进行10次交叉验证的测试，结果使用该训练算法的预测准确率达到96.98％，正确定位精度为91.25％，高于其他预测方法对该数据集的预测结果，验证了该算法的合理性和有效性。 2．蛋白质可溶性表征蛋白质残基在三级结构中与溶剂接触的程度，是反映蛋白质三级结构以及功能位点的主要特征。按照蛋白序列中残基的相对可溶性，将其分为两类(表面／内部)和三类(表面／中间／内部)进行预测。采用Markov链模型，选择不同窗宽和参数对数据进行训练和预测，以确保得到最好的分类效果，并同其他已有方法进行了比较。对同一数据集不同分类阈值的预测结果显示，

全文目录

摘要  7-9
ABSTRACT  9-12
第1章绪论  12-20
  1.1 生物信息学  12-15
  1.2 生物信息学中的统计预测方法  15-18
    1.2.1 隐马尔科夫模型  16-17
    1.2.2 支持向量机  17-18
    1.2.3 k近邻方法  18
  1.3 本文的研究介绍  18-20
第2章基于隐马尔科夫模型的蛋白质跨膜螺旋的预测  20-42
  2.1 绪论  20
  2.2 隐马尔科夫模型  20-30
    2.2.1 引言  20-21
    2.2.2 HMM的基本原理  21-26
      2.2.2.1 评估问题  22-23
      2.2.2.2 解码问题  23-24
      2.2.2.3 学习问题  24-26
    2.2.3 HMM的优缺点  26
    2.2.4 HMM的若干应用  26-30
      2.2.4.1 基因查询  26-27
      2.2.4.2 对序列家族的识别  27-28
      2.2.4.3 对已知序列局部特征的检测与预测  28-30
    2.2.5 结论  30
  2.3 蛋白质跨膜螺旋的生物学基础  30-34
    2.3.1 膜蛋白的存在形式  30-31
    2.3.2 整合蛋白的穿膜现象  31-32
    2.3.3 蛋白通过疏水区驻留在膜上  32-34
  2.4 跨膜螺旋预测的一种分段训练算法  34-40
    2.4.1 模型结构  34-35
    2.4.2 学习算法  35-37
    2.4.3 预测方法  37-38
    2.4.4 评测手段  38
    2.4.5 结果和讨论  38-40
  2.5 本章小结  40-42
第3章 Markov链模型在蛋白可溶性预测中的应用  42-59
  3.1 绪论  42
  3.2 Markov链的介绍  42-47
    3.2.1 Markov链的概念  42-43
    3.2.2 转移概率  43-45
    3.2.3 初始分布与绝对分布  45-47
  3.3 蛋白质可溶性特征的生物学基础  47-49
    3.3.1 氨基酸  47-48
    3.3.2 残基可溶性  48-49
  3.4 基于MCM的蛋白质残基可溶性分类的预测  49-57
    3.4.1 MCM模型  49-53
      3.4.1.1 数据获取  49-50
      3.4.1.2 k阶MCM模型  50
      3.4.1.3 在蛋白质可溶性预测中的具体应用  50-52
      3.4.1.4 分类器设计  52-53
    3.4.2 结果与讨论  53-57
      3.4.2.1 预测及评价方法  54
      3.4.2.2 数据集的选择  54-55
      3.4.2.3 MCM阶数对预测精度的影响  55-56
      3.4.2.4 与其他算法的比较  56-57
  3.5 本章小结  57-59
第4章基于机器学习方法的蛋白亚细胞定位的预测方法研究  59-88
  4.1 绪论  59
  4.2 蛋白亚细胞定位的生物学基础  59-62
  4.3 特征和预测方法研究  62-82
    4.3.1 常用的生物学特征  62-69
      4.3.1.1 氨基酸组成  62-63
      4.3.1.2 氨基酸对组成  63-64
      4.3.1.3 蛋白结构信息  64
      4.3.1.4 GO  64-66
      4.3.1.5 profile  66-69
    4.3.2 常用的预测方法介绍  69-75
      4.3.2.1 神经网络  70
      4.3.2.2 模糊k近邻算法  70-71
      4.3.2.3 SVM  71-75
    4.3.3 目前的一些预测方法  75-76
    4.3.4 不同特征和分类器对预测结果的分析和比较  76-82
      4.3.4.1 数据集  77
      4.3.4.2 评价指标  77-79
      4.3.4.3 结果和讨论  79-82
  4.4 基于ensemble技术的亚定位方法  82-86
    4.4.1 ensemble技术(多分离器的投票表决)  82-83
    4.4.2 特征选取  83-84
    4.4.3 结果和讨论  84-85
    4.4.4 置信度评测  85-86
  4.5 本章小结  86-88
第5章基于k近邻和打分矩阵的磷酸化位点预测  88-104
  5.1 绪论  88
  5.2 蛋白质的磷酸化  88-92
    5.2.1 磷酸化的生物学基础  88-89
    5.2.2 目前对蛋白磷酸化的预测方法  89-92
      5.2.2.1 NetPhosK  90
      5.2.2.2 Scansite  90-91
      5.2.2.3 KinasePhos  91-92
  5.3 k近邻算法和打分矩阵  92-98
    5.3.1 k近邻算法  92-95
      5.3.1.1 最近邻法决策规则  93
      5.3.1.2 最近邻算法的一些引中  93-94
      5.3.1.3 改进的k近邻算法  94-95
      5.3.1.4 最近邻方法中的最佳距离  95
    5.3.2 打分矩阵  95-98
  5.4 基于k近邻和BLOSUM62矩阵方法的磷酸化位点预测  98-103
    5.4.1 特征选取  98-99
    5.4.2 算法流程  99
    5.4.3 实验数据  99-100
    5.4.4 评测手段  100
    5.4.5 结果与讨论  100-103
  5.5 本章小结  103-104
第6章总结和展望  104-107
参考文献  107-118
作者在读博期间发表的有关论文  118-119
致谢  119

基于统计建模方法的蛋白质结构预测研究

内容摘要

全文目录

相似论文