学位论文 > 优秀研究生学位论文题录展示

基于多源数据融合的蛋白质—蛋白质相互作用网络构建方法研究

作 者: 杨晓飞
导 师: 郑浩然
学 校: 中国科学技术大学
专 业: 计算机应用技术
关键词: 蛋白质相互作用 多数据源 逻辑斯特回归 信息论 拓扑结构
分类号: Q51
类 型: 硕士论文
年 份: 2009年
下 载: 167次
引 用: 3次
阅 读: 论文下载
 

内容摘要


蛋白质相互作用在生物体的生命活动中具有极其重要的作用,几乎涉及到每一个生理过程,得到一个物种中所有的蛋白质相互作用对于理解生物机理具有重大意义。传统的生物实验手段通常一次只能检测出单个的相互作用,既费时又费力,虽然也积累了一些数据,但是仍远远不够。近年来,一些高通量的实验手段能够产生大量的蛋白质相互作用数据,然而这些数据由于实验技术本身的缺陷,具有较高的出错率,大大削弱了这些数据的参考价值。因而从生物信息学的角度出发来预测蛋白质相互作用成为了重要的补充手段,成为研究的热点。本文从多个数据源出发,整合了不同类型的数据,利用机器学习的方法来预测模式生物酵母的蛋白质相互作用。主要工作包括:搜集和整理网上的实验数据,并对数据进行预处理,计算出需要的各个属性数据,存储在本地数据库中;尝试利用不同的方法对这些数据进行处理,预测蛋白质相互作用,并通过生物实验上证实的相互作用数据验证得到的结果;提出了一种基于通信模型的分类方法来预测蛋白质相互作用,并通过与朴素贝叶斯方法的对比实验验证了方法有较性;结合蛋白质相互作用网络的拓扑结构特征及基因组学数据校正蛋白质相互作用预测网络以获得更为可靠的相互作用信息。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-19
  1.1 蛋白质相互作用概述  8-9
  1.2 获取蛋白质相互作用的实验手段  9-12
  1.3 一些蛋白质相互作用的数据库  12-13
    1.3.1 The Bio-molecular Interaction Network Database (BIND)  12
    1.3.2 The Database of Interacting Proteins (DIP)  12
    1.3.3 IntAct  12
    1.3.4 A Molecular INTeraction database (MINT)  12-13
  1.4 获取蛋白质相互作用的生物信息学方法  13-15
    1.4.1 利用单一特征预测PPI  13-15
    1.4.2 利用多数据源预测PPI  15
  1.5 PPI 网络的拓扑结构特性  15-16
  1.6 论文的内容与组织结构  16-19
第二章 多源数据收集与处理  19-26
  2.1 基因表达数据  19-20
  2.2 基因本体标注信息  20-23
    2.2.1 基因本体简介  20-22
    2.2.2 标注信息的利用  22-23
  2.3 MIPS 功能标注信息  23-24
  2.4 蛋白质重要性数据  24
  2.5 高通量PPI 实验数据  24
  2.6 标准数据集的选取  24-25
  2.7 本章小结  25-26
第三章 基于逻辑斯特回归的PPI 预测  26-39
  3.1 PPI 预测问题概述  26-27
  3.2 逻辑斯特回归简介以及实现  27-28
  3.3 模型训练与验证  28-31
  3.4 与朴素贝叶斯方法的比较  31-32
  3.5 预测未知数据  32
  3.6 正负训练集比例对结果的影响  32-36
  3.7 得到的PPI 网络可靠性的验证  36-38
  3.8 本章小结  38-39
第四章 基于通信模型的分类器与PPI 预测  39-50
  4.1 信息论基础  39-42
    4.1.1 信息熵  40-41
    4.1.2 互信息  41-42
  4.2 基于通信模型的分类器简介  42-43
  4.3 基于通信模型的分类器与朴素贝叶斯之间的关系  43-44
  4.4 用基于通信模型的分类器预测蛋白质相互作用  44-49
    4.4.1 实验流程  44-46
    4.4.2 数据获取  46-47
    4.4.3 测试结果  47-48
    4.4.4 预测新的相互作用  48-49
  4.5 本章小结  49-50
第五章 基于拓扑结构的蛋白质相互作用网络的校正  50-58
  5.1 蛋白质相互作用网络的拓扑结构性质  51-52
    5.1.1 图论中的基本术语  51
    5.1.2 蛋白质相互作用网络的拓扑性质  51-52
  5.2 基于拓扑结构的PPI 的评估  52-53
  5.3 IRAP 简介  53-54
  5.4 改进的IRAP  54-55
  5.5 评估校正后的PPI 网络  55-57
  5.6 本章小结  57-58
第六章 总结与展望  58-60
  6.1 工作总结  58-59
  6.2 未来工作展望  59-60
参考文献  60-65
致谢  65-66
在读期间发表的学术论文与取得的研究成果  66

相似论文

  1. 多层卫星网络稳定性设计研究,TN927.23
  2. 柔性、刚性混配配合物的合成与性质表征,O621.1
  3. 棉花纤维初始发育期14-3-3相互作用蛋白的酵母双杂交筛选,S562
  4. 免疫共沉淀联合质谱筛选肝核因子HNF3β相互作用蛋白质及初步功能研究,R341
  5. 核蛋白NDP52与肿瘤坏死因子受体相关因子TRAF6相互作用及临床意义的研究,R363
  6. 趋向自然:唯信息论世界观下的生态工业系统演化,X321
  7. 多属性无向加权图上的聚类方法研究,O157.5
  8. 长链芳香多羧酸金属有机配位聚合物的合成、结构及性能研究,O631.3
  9. 光端机矩阵嵌入式控制器软件的设计与开发,TP311.52
  10. 基于空间数据库和视觉特征的钓鱼网页检测,TP393.08
  11. 聚己内酯的表面改性及其对细胞行为的影响,R318.08
  12. BBS中组织拓扑结构研究和意见领袖识别,TP393.094
  13. 通讯约束下量化估计系统的设计与分析,TP273
  14. 局部扭立方体LTQ_n容错性研究,O157.5
  15. 大学生就业的影响因素分析:社会资本和人力资本的比较,G647.38
  16. 基于小世界的无线传感网拓扑和路由算法研究,TP212.9
  17. 网络拓扑结构层析成像的改进算法研究,TN915.02
  18. 蛋白质分子表面构建与静电势分析,Q51
  19. BL0033与BL0034在长双歧杆菌果糖ABC转运系统中功能的研究,Q935
  20. 基于空间矢量控制的双级矩阵变换器的研究,TM46
  21. 改进型UPQC拓扑结构及控制策略研究,TM761

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com