学位论文 > 优秀研究生学位论文题录展示

基于智能计算的蛋白质功能预测研究

作 者: 张同亮
导 师: 丁永生
学 校: 东华大学
专 业: 控制理论与控制工程
关键词: 蛋白质功能预测 亚细胞定位 蛋白质结构类 二级结构 模糊K近邻算法 模糊支持向量机 集成分类算法 Motif发现
分类号: Q51-3
类 型: 博士论文
年 份: 2008年
下 载: 411次
引 用: 0次
阅 读: 论文下载
 

内容摘要


蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分。几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。目前蛋白质序列数量的激增,急需要开发快速、准确地计算工具预测蛋白质的功能。研究蛋白质序列信息与其功能的关系也是这个领域的研究重点。本论文围绕蛋白质功能预测的几个重要方面:蛋白质亚细胞位点预测,蛋白质结构类预测和单序列蛋白质二级结构预测和蛋白质序列内功能Motif发现展开研究,目的是开发一些根据序列信息预测蛋白质功能的方法。论文的主要研究成果如下:在蛋白质亚细胞位点预测研究中,根据Chou提出的伪氨基酸组成离散模型,提出一种改进的伪氨基酸组成模型。使用免疫遗传算法优化附加特征向量的权重。在改进的伪氨基酸组成模型框架中,使用数字信号处理技术和疏水氨基酸对模式表示序列的附加特征,应用扩大的协方差作为预测工具,预测了真核细胞12类亚细胞位点。然后提出了一种基于特征选择的集成分类器的预测方法,用于凋谢蛋白的亚细胞位点预测。使用具有不同间隔的氨基酸对组成表示序列特征,经过特征选择后形成更加有效的特征组合。集成分类器中的基本分类器为模糊K-近邻(FKNN)分类算法,Jackknife测试和独立数据集测试证明了该方法的有效性和实用性。在蛋白质结构类预测研究中,提出了三种结构类预测的方法。第一种是基于二叉树支持向量机的方法,发展了一种新的伪氨基酸组成表示序列的特征。结合了传统的氨基酸组成,序列内氨基酸相互关系和疏水模式,使用二叉树支持向量机作为预测工具,采用标准数据集验证了方法的性能;第二种方法是基于改进的伪氨基酸组成模型的结构类预测方法。将蛋白质序列映射为短的时间序列,计算序列的近似熵,构造了一种27-D的伪氨基酸组成表示序列特征。FKNN分类算法作为预测工具,免疫遗传算法优化附加特征权重系数。在“严格”数据集测试中取得了较好的结果;第三种方法是两层模糊支持向量机网络的方法,在第一层中,基本的分类器是模糊支持向量机,输入数据是基于不同物理化学属性的伪氨基酸组成。组合第一层中各个模糊支持向量机的输出数据,作为第二层模糊支持向量机分类器的输入数据,经过决策后得到最终结果。在蛋白质二级结构预测研究中,提出了基于最大熵概率模型的预测方法。考虑了蛋白质序列的结构类信息和目标残基的上下文环境,设计了影响残基二级结构的特征空间和特征模版。将这些特征都包含进入最大熵概率分布模型中,根据结构类不同分别训练和建立二级结构预测模型。算法中二级结构的特征信息仅来自于序列本身,没有考虑多序列排列信息。目的是解决“孤立”蛋白的二级结构预测问题。实验证明预测算法具有较高的准确率和实用性。由于细胞核内空间狭窄和蛋白质的不稳定性,核内亚空间的蛋白质位点预测成为难点。本论文提出了基于近似熵的伪氨基酸组成方法,采用集成AdaBoost分类器作为预测工具,用于蛋白质亚核位点的预测。在两个标准数据集上的测试表明了该方法的有效性。蛋白质家族内序列具有相似的功能,序列内的重点区域Motif也应该具有相似性。本论文提出了一种Motif发现算法,在蛋白质家族内寻找重要的Motif集合,验证序列所属的蛋白质家族。在连接酶的21个亚家族识别中,建立了一个实用的连接酶亚家族服务器。最后,对全论文的研究内容进行了总结,指出了研究工作中存在的不足,明确了下一步的研究方向。

全文目录


摘要  5-7
ABSTRACT  7-10
目录  10-14
第一章 绪论  14-26
  1.1 研究背景及意义  14-17
  1.2 国内外的研究现状  17-22
    1.2.1 蛋白质亚细胞定位研究  18-19
    1.2.2 蛋白质结构类和折叠类型预测研究  19-20
    1.2.3 蛋白质二级结构预测研究  20-22
  1.3 论文的研究内容和创新点  22-23
  1.4 论文的章节安排  23-26
第二章 蛋白质亚细胞定位预测算法的研究  26-46
  2.1 引言  26-27
  2.2 改进的伪氨基酸组成模型  27-30
    2.2.1 伪氨基酸组成离散模型  27-28
    2.2.2 改进的伪氨基酸组成模型  28-30
  2.3 真核细胞蛋白质亚细胞定位预测  30-37
    2.3.1 蛋白质序列表示方法  31-33
    2.3.2 扩大的协方差判别式算法  33
    2.3.3 测试数据集  33-34
    2.3.4 性能评价标准  34-35
    2.3.5 结果与讨论  35-37
  2.4 凋谢蛋白亚细胞定位预测研究  37-45
    2.4.1 背景介绍  37-38
    2.4.2 材料和方法  38-43
    2.4.3 结果与讨论  43-45
  2.5 小结  45-46
第三章 基于伪氨基酸组成的蛋白质结构类预测算法的研究  46-64
  3.1 引言  46
  3.2 背景及相关工作  46-48
  3.3 基于二叉树支持向量机的结构类预测方法  48-56
    3.3.1 序列特征表示  48-49
    3.3.2 支持向量机原理  49-51
    3.3.3 二叉树支持向量机  51-52
    3.3.4 数据集和评价方法  52-53
    3.3.5 结果与讨论  53-56
  3.4 基于近似熵的蛋白质结构类预测方法  56-62
    3.4.1 测试数据集  57
    3.4.2 预测方法  57-58
    3.4.3 近似熵原理与计算方法  58-59
    3.4.4 结果与讨论  59-62
  3.5 小结  62-64
第四章 基于模糊支持向量机网络的蛋白质结构类预测研究  64-70
  4.1 引言  64
  4.2 材料和方法  64-67
    4.2.1 模糊支持向量机  64-65
    4.2.2 模糊支持向量机网络  65-66
    4.2.3 蛋白质序列表示  66-67
  4.3 结果与讨论  67-69
  4.4 小结  69-70
第五章 不同结构类蛋白质二级结构预测算法的研究  70-86
  5.1 引言  70-71
  5.2 背景及相关工作  71-73
  5.3 最大熵模型原理  73-74
  5.4 材料和方法  74-82
    5.4.1 数据集  74-76
    5.4.2 蛋白质二级结构预测模型的建立  76-77
    5.4.3 特征空间  77-80
    5.4.4 特征模版  80-81
    5.4.5 算法性能评价  81-82
  5.5 结果与分析  82-85
  5.6 小结  85-86
第六章 基于集成分类算法的蛋白质亚核定位研究  86-94
  6.1 引言  86
  6.2 研究背景  86-87
  6.3 材料和方法  87-90
    6.3.1 数据集  87
    6.3.2 蛋白质序列表示  87-88
    6.3.3 集成分类预测系统  88-89
    6.3.4 AdaBoost算法  89-90
  6.4 结果与讨论  90-93
  6.5 小结  93-94
第七章 蛋白质序列Motif发现算法的研究  94-112
  7.1 引言  94-95
  7.2 背景及相关工作  95-96
  7.3 蛋白质序列Motif发现算法  96-101
    7.3.1 特征选择  97-98
    7.3.2 模体连接  98-100
    7.3.3 模体产生  100-101
    7.3.4 蛋白质序列家族识别  101
  7.4 Motif发现算法在连接酶的亚家族识别上的应用  101-109
    7.4.1 数据集  102-103
    7.4.2 结果与讨论  103-108
    7.4.3 接连酶亚家族类型预测服务器  108-109
  7.5 小结  109-112
第八章 总结与展望  112-116
  8.1 总结  112-114
  8.2 展望  114-116
参考文献  116-134
附录  134-137
  附录A 攻读博士学位期间完成的论文  134-136
  附录B 攻读博士学位期间所参与的项目  136-137
  附录C 攻读博士学位期间获得的奖励和荣誉称号  137

相似论文

  1. 基于机器学习算法的自动图像标注,TP391.41
  2. 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
  3. 基于信息融合的道路和障碍物检测方法研究,TP242
  4. 基于不同常数项模糊支持向量机的脑变形矫正模型,TP18
  5. P2P流量识别技术的研究与实现,TP393.06
  6. 基于信息几何的FSVM理论及算法研究,TP181
  7. 基于智能计算的膜蛋白结构与相互作用预测研究,Q51
  8. 基于支持向量机的电力系统暂态稳定评估研究,TM712
  9. 人磷酸核糖焦磷酸合成酶(hPRS)致痛风病突变体及人黑色素瘤分化相关抗原5(MDA5)的结构和功能研究,R392
  10. 基于PBIL算法的蛋白质二级结构预测研究,Q51-3
  11. 芽孢杆菌产β-甘露聚糖酶的纯化及其稳定性研究,TQ925
  12. 利用抑制晶体生长活性再鉴定牛乳骨桥蛋白及其二级结构的研究,TQ464.7
  13. 人类pre-mRNA二级结构的数据库建立及与蛋白质相关性的分析,Q75
  14. RNA二级结构预测算法的研究与实现,TP301.6
  15. 蛋白质二级结构特征分析与相互作用预测,Q51
  16. 含假结RNA二级结构的预测算法设计及软件开发,Q75
  17. 卟啉—多肽共价结合物的设计、合成与超分子组装性质研究,O621.3
  18. 模式识别技术在中药近红外光谱分析中的应用研究,R284
  19. 模糊支持向量机的相关技术研究,TP18
  20. 基于模糊支持向量机的入侵检测研究,TP393.08

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com