学位论文 > 优秀研究生学位论文题录展示

蛋白质结构预测中若干问题的研究

作 者: 陈俊
导 师: 沈红斌
学 校: 上海交通大学
专 业: 控制科学与工程
关键词: 蛋白质重建 关联图 粒子群算法 Glocal 二硫键连接模式 突变关联 结构域 广义主成分分析
分类号: Q51
类 型: 硕士论文
年 份: 2013年
下 载: 180次
引 用: 0次
阅 读: 论文下载
 

内容摘要


作为遗传信息的表现者,蛋白质是细胞中最丰富、功能最多的生物大分子。研究发现蛋白质功能与蛋白质的空间结构有着紧密联系,具有相似功能的蛋白质其结构往往比较相似。所以,对蛋白质结构进行预测研究可以了解蛋白质的功能,进而有助于揭示生命活动的本质,且对相关疾病发生机制的认识及有针对性药物的研发会起到积极的推动作用。随着高通量测序技术的不断发展,蛋白质序列的数目在呈指数形式增加,使用实验方法去获取蛋白质的结构已经远不能满足需要。因而,利用计算方法来进行蛋白质结构预测已成为生物信息学研究中的一大热点。本文主要研究了蛋白质结构预测中两个重要的问题:基于关联图的蛋白质结构重建和二硫键连接模式预测。提出了基于2D关联图的蛋白质3D重建算法Glocal。Glocal算法中使用粒子群算法去优化全局能量函数,利用模拟退火算法去优化局部能量函数。通过引入粒子群算法,避免了的之前重建算法中广泛存在的关于初始结构选择这一难题。通过设计全局函数,从整个关联图的角度去优化蛋白质的初始结构,可以有效的减少陷入局部最优,提高了预测精度。大量实验证明,Glocal算法有效的从天然关联图中恢复的蛋白质3D结构,重建蛋白质结构的平均RMSD值小于2。同时,Glocal算法在处理含有错误连接的关联图显示了良好的健壮性。实验中,进一步分析关联图中长连接和阈值对蛋白质重建结果的影响。提出了融合了传统机器学习模型和突变关联预测模型的二硫键连接模式预测模型。在传统机器学习模型部分中,引入了结构域特征,采用并联方式融合两个半胱氨酸的特征并进一步采用广义主成分分析(GPCA)降维。通过大量的实验论证了这些改进可以有效的提高预测模型的预测精度。二硫键作为蛋白质中一种重要的连接,形成二硫键的两个半胱氨酸位置之间可能存在共同进化,因而可以利用突变关联方法去预测二硫键。文中分析了传统机器学习模型和突变关联预测模型在二硫键连接模式预测上优缺点,并使用线性方式去融合这两个模型的预测结果,形成了最终的二硫键连接模式预测模型。本文中的预测模型的最终预测精度为Q_C=81.8%和Q_P=79.2%,充分验证了该模型的有效性。

全文目录


摘要  5-7
Abstract  7-12
第一章 绪论  12-18
  1.1 研究背景和意义  12-13
    1.1.1 信息生物学  12
    1.1.2 蛋白质结构预测的研究意义  12-13
  1.2 蛋白质结构预测的方法及研究进展  13-16
    1.2.1 同源模建  14-15
    1.2.2 折叠识别  15
    1.2.3 从头预测  15-16
  1.3 研究内容与创新点  16-17
  1.4 本文组织结构  17-18
第二章 背景知识介绍  18-27
  2.1 蛋白质结构介绍  18-19
  2.2 蛋白质关联图  19-21
    2.2.1 关联图的一般定义  19-20
    2.2.2 基于关联图的蛋白质空间结构预测  20-21
    2.2.3 蛋白质关联图预测  21
  2.3 二硫键  21-22
    2.3.1 二硫键概述  21
    2.3.2 二硫键预测  21-22
  2.4 粒子群算法  22-25
    2.4.1 基本粒子群算法  22-23
    2.4.2 粒子群算法的改进策略  23-25
  2.5 蛋白质序列与结构数据库  25-27
第三章 基于关联图的蛋白质 3D 结构重建  27-46
  3.1 背景及动机  27-28
  3.2 数据集整理  28-30
  3.3 蛋白质重建模型  30-33
    3.3.1 关联图的定义  30
    3.3.2 蛋白质结构重建模型  30-33
  3.4 结果分析  33-41
    3.4.1 结果评价标准  33-34
    3.4.2 初始候选结构分析  34-35
    3.4.3 修正优化后蛋白质 3D 结构分析  35-37
    3.4.4 系统健壮性  37-39
    3.4.5 和其他方法的对比  39-41
  3.5 讨论  41-45
    3.5.1 阈值对预测精度的影响  41
    3.5.2 蛋白质的长度和全局能量函数优化后的函数值对重建精度的影响  41-42
    3.5.3 长连接对重建精度的影响  42-43
    3.5.4 膜蛋白上的 3D 结构重建  43-45
  3.6 本章小结  45-46
第四章 二硫键连接模式预测  46-64
  4.1 背景及动机  46-47
  4.2 数据集整理  47-49
  4.3 二硫键连接模式预测模型  49-54
    4.3.1 二硫键连接模式的定义  49
    4.3.2 基于机器学习方法的预测  49-52
    4.3.3 基于突变关联的预测模型  52-53
    4.3.4 最终融合预测模型  53-54
  4.4 实验结果及讨论  54-63
    4.4.1 评估指标  54
    4.4.2 基于机器学习方法的预测模型结果  54-58
    4.4.3 基于突变关联的预测模型结果  58-60
    4.4.4 预测模型结果线性融合分析  60-62
    4.4.5 新旧数据上实验结果对比  62
    4.4.6 和其他预测方法比较  62-63
  4.5 本章小结  63-64
第五章 总结与展望  64-67
  5.1 总结  64-65
  5.2 展望  65-67
附录 A 缩写对照表  67-68
参考文献  68-74
致谢  74-75
攻读硕士学位期间已发表或录用的论文  75-76
附件  76

相似论文

  1. 人脸识别的弹性匹配改进方法研究,TP391.41
  2. 掌纹识别中预处理和特征提取的初步研究,TP391.41
  3. 基于稀疏表示理论的图像去噪方法研究,TN911.73
  4. 胡子鲶Dmrt1基因全长cDNA的克隆和时空表达,S917.4
  5. KZNF家族中p53调控分子的筛选及功能鉴定(AxZ型、SABZ型和ACxZ型),R730.2
  6. 组蛋白去甲基化酶Jhd2、JMJD5的结构生物学探索及金黄色葡萄球菌HssSR的表达纯化,Q93
  7. 抗转铁蛋白受体四价抗体(TfR-TeAb)的构建、表达和鉴定,R730.3
  8. 蛋白质—蛋白质相互作用界面和热点预测的方法研究,TP181
  9. 稻瘟菌效应因子的筛选、克隆及其功能研究,S435.111.41
  10. MMP9-PEX原核表达、纯化与复性研究,R346
  11. 水稻ASH1家族组蛋白甲基转移酶的功能研究,S511
  12. 登革病毒E蛋白结构域Ⅲ的表达及其在登革热血清学早期诊断中的初步应用,R446.6
  13. 栉孔扇贝(Chlamys farreri)新型清道夫受体的基因克隆、重组表达及活性分析,S917.4
  14. 高温纤维素酶产生菌的筛选、鉴定及其基因克隆和酶学性质研究,TQ925
  15. 适用于多肽制备的大肠杆菌高效表达系统的构建,Q78
  16. SET/TAF-Iβ和CHMP6的克隆、表达、纯化以及初步晶体学分析,Q78
  17. 人类AHI1蛋白SH3结构域的初级晶体学研究,Q51
  18. Fas相关死亡结构域蛋白在暴发性肝衰竭肝细胞凋亡信号传导通路中的作用及其调控因素,R575.3
  19. 4,5-双氢格尔德霉素组分检测及格尔德霉素生物合成后修饰研究,R915
  20. 基于生物信息学对油菜fad2基因的综合分析,S565.4

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com