学位论文 > 优秀研究生学位论文题录展示

蛋白质—核酸的相互作用特征分析及DNA和RNA结合蛋白的预测研究

作 者: 邹传新
导 师: 李洪林
学 校: 华东理工大学
专 业: 药学
关键词: 药物设计 生物信息学 DNA结合蛋白 RNA结合蛋白 机器学习
分类号: Q51
类 型: 硕士论文
年 份: 2013年
下 载: 196次
引 用: 0次
阅 读: 论文下载
 

内容摘要


蛋白质—核酸的相互作用与生物体内最基本的生命活动密切相关,例如:基因的转录和调控、DNA的复制和修复、DNA的重组和包装以及染色质和核糖体的形成等。这种能够与DNA/RNA相互作用的蛋白质称为DNA/RNA结合蛋白,它们对于研究疾病产生的原因和药物设计靶标至关重要。随着后基因组时代的发展和大规模基因组测序计划的实施,人类获得了越来越多的DNA/RNA结合蛋白的序列和部分蛋白质-DNA/RNA复合物结构数据。面对后基因组时代已有的海量蛋白质数据,首要的任务就是对其进行功能注释,然后才能开始进一步对生命本质的研究。由于蛋白质和核酸相互作用的机理仍未完全确定,采用生物信息学的方法去研究和分析已有的数据,并解释这一生物学现象的本质不失为有效的途径,如何从众多蛋白质数据中通过计算的手段识别能够与DNA/RNA结合的蛋白质为本文拟解决的关键核心问题。本文从生物信息学的角度出发,以蛋白质的序列信息为研究对象,采用机器学习的方法全面分析和考察不同种类的序列描述符,并分层次挖掘蛋白质的序列信息,以此建立高通量的预测DNA结合蛋白的模型。本方法对DNA结合蛋白模型的分类准确率达到0.940,马修斯相关系数(MCC)等于0.881,优于已报道的文献和方法。最后,我们将该方法用于RNA结合蛋白体系,进一步分析并总结RNA结合蛋白与DNA结合蛋白的异同。本文中,我们开发了一种全新的基于序列预测DNA/RNA-结合蛋白的方法。不仅为进一步通过计算研究蛋白质—核酸相互作用机理奠定了基础,还可作为实验研究的辅助手段,为分子生物学实验验证提供有益线索。此外,本文还开发了从不同尺度挖掘序列描述符的框架,为今后基于序列的蛋白质功能预测提供了参考和新的研究思路。

全文目录


摘要  5-6
Abstract  6-11
第1章 蛋白质—DNA相互作用的研究背景  11-27
  1.1 蛋白质—DNA的相互作用  11-13
    1.1.1 蛋白质—DNA相互作用概述  11
    1.1.2 蛋白质—DNA相互作用形式  11-12
    1.1.3 蛋白质—DNA相互作用的研究方法  12-13
  1.2 DNA结合蛋白的特征  13-15
  1.3 生物信息学概述  15-16
    1.3.1 生物信息学介绍  15
    1.3.2 生物信息学与药物设计  15-16
  1.4 数据挖掘概述  16-22
    1.4.1 数据挖掘与生物信息学  16-17
    1.4.2 特征选择的方法  17-19
    1.4.3 非平衡数据问题  19-20
    1.4.4 集成学习方法  20-22
  1.5 研究现状  22-27
    1.5.1 机器学习的研究方法  22-23
    1.5.2 其他的计算研究方法  23
    1.5.3 DNA结合蛋白的研究资源  23-27
第2章 DNA结合蛋白的预测研究  27-52
  2.1 DNA结合蛋白的研究目的与思路  27-29
    2.1.1 研究目的  27
    2.1.2 研究思路  27
    2.1.3 支持向量机的介绍  27-28
    2.1.4 模型的评价方法  28-29
  2.2 材料与方法  29-41
    2.2.1 实验数据集  29-31
      2.2.1.1 主数据集1-DNAdset  30
      2.2.1.2 主数据集2-DNAaset  30
      2.2.1.3 独立测试集—DNAiset  30
      2.2.1.4 现实数据集—DNArset  30-31
    2.2.2 蛋白质序列特征提取  31-36
      2.2.2.1 氨基酸组成信息  31-32
      2.2.2.2 蛋白质的物理化学性质  32-35
      2.2.2.3 蛋白质的进化信息  35
      2.2.2.4 蛋白质的结构功能信息  35-36
    2.2.3 蛋白特征值转换方法  36-38
      2.2.3.1 OCTD转换方法  36
      2.2.3.2 ACC转换方法  36-37
      2.2.3.3 SAA转换方法  37-38
    2.2.4 最优描述符的挑选过程  38-40
      2.2.4.1 mRMR特征挑选方法  38-39
      2.2.4.2 IFS最优特征子集挑选  39-40
    2.2.5 集成学习过程  40
    2.2.6 试验方法的编程实现  40-41
  2.3 DNA结合蛋白的预测结果与讨论  41-52
    2.3.1 AC特征转换方法的结果  41-42
    2.3.2 描述符的初步考察  42-45
    2.3.3 特征挑选结果  45-46
      2.3.3.1 mRMR特征排序结果  45
      2.3.3.2 IFS特征挑选结果  45-46
    2.3.4 集成学习方法的结果  46-48
    2.3.5 独立测试集的结果  48
    2.3.6 DN-set数据集的结果  48
    2.3.7 与已报道方法的比较  48-50
    2.3.8 结果讨论  50-51
    2.3.9 本章小结  51-52
第3章 RNA结合蛋白的预测和分析  52-68
  3.1 背景介绍  52-56
    3.1.1 RNA结合蛋白的概述  52-53
    3.1.2 RNA结合蛋白的特征  53-54
    3.1.3 RNA结合蛋白的研究现状  54-56
  3.2 研究方法和材料  56-63
    3.2.1 数据集  56-57
      3.2.1.1 训练集RNAstset  56
      3.2.1.2 训练集RNAptset  56
      3.2.1.3 独立测试集RNAiset  56-57
    3.2.2 蛋白质的序列特征计算  57-60
      3.2.2.1 PSSM打分矩阵  57
      3.2.2.2 尺度特征描述符(scale-descriptors)  57-60
    3.2.3 PSSMP特征矩阵的定义  60-61
    3.2.4 滑动窗口提取特征方法  61-62
    3.2.5 RNA结合位点的预测模型  62
    3.2.6 RNA结合蛋白的预测模型  62-63
  3.3 模型评价方法  63
  3.4 结果与讨论  63-66
    3.4.1 RNA结合位点的预测结果  63-64
    3.4.2 RNA结合蛋白的预测结果  64-65
    3.4.3 DNA结合蛋白与RNA结合蛋白的特征比较  65-66
  3.5 本章小结  66-68
第4章 全文总结及展望  68-70
参考文献  70-83
硕士期间发表论文情况  83-84
致谢  84

相似论文

  1. BioLab面向生物计算服务的网格系统,TP399-C8
  2. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  3. 高温蛋白酶Pgsey及解旋酶Htc16特征的初步研究,Q814
  4. 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
  5. 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
  6. 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
  7. 两个玉米转录因子ZmC4HC3和ZmNAC的克隆与表达分析,S513
  8. 斯氏按蚊感染约氏疟原虫后24小时差异表达基因的筛选与分析,R531.3
  9. 英汉命名实体翻译方法研究,TP391.2
  10. 生物医学缩略语消歧,R-5
  11. 基于数据分布特征的文本分类研究,TP391.1
  12. 类药性和生物利用度的理论预测研究,R914
  13. 基于微孔板核酸杂交酶联免疫吸附法检测DNA结合蛋白,Q503
  14. 利用DDRT-PCR技术研究AM真菌侵染紫穗槐过程中相关基因,S793.2
  15. 人类抗原肽载体结合力预测,R392.1
  16. 军事港口目标分类平台的设计与实现,TP751
  17. Paenibacillus mucilaginosus KNP414全基因组测序及分析,Q78
  18. 日本血吸虫假结结构的生物信息学预测分析以及鉴定,Q522
  19. 基于多视角的分类器设计与权值优化方法研究,TP18
  20. 巴氏杜氏藻psy侧翼调控序列的克隆及其环境因子调控元件分析,S917.3
  21. 基于学习的逆向运动学人体运动合成,TP391.41

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com