学位论文 > 优秀研究生学位论文题录展示
基于统计建模方法的蛋白质结构预测研究
作 者: 王明会
导 师: 冯焕清
学 校: 中国科学技术大学
专 业: 生物医学工程
关键词: 蛋白质结构 建模方法 预测研究 生物信息学 蛋白质激酶 磷酸化位点 支持向量机 亚细胞定位 预测方法 预测精度
分类号: Q51-3
类 型: 博士论文
年 份: 2006年
下 载: 535次
引 用: 0次
阅 读: 论文下载
内容摘要
从20世纪80年代末开始,生物信息学(Bioinformatics)逐渐兴起并开始蓬勃发展。生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学,它不仅是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。生物信息学的发展将会对生命科学带来革命性的变革,它不仅会对相关基础学科起巨大的推动作用,还会对农业、医药、卫生、食品等产业产生巨大的影响。当前生物信息学研究的一个主要方向是发展基于统计建模的预测方法,例如隐马尔科夫模型、支持向量机、k近邻等方法。相对于传统的方法,这些方法具有速度快、自动化程度高的优点,尤其适用于高通量大规模序列数据的分析。本文主要以蛋白质的结构和功能的预测为应用背景,对上述这几种基于统计建模的预测方法进行了较深入的研究,旨在提高它们在特定的预测应用中的精度和效率。 本文主要在以下几个方面进行了有成效和有特色的研究: 1.跨膜螺旋是蛋白质家属中极为重要的一种类型,在几乎所有的活细胞和信号传输中都起着重要作用,人类基因组中相当一部分蛋白质编码为螺旋连接的跨膜段的形式。因此,对跨膜段的正确预测是实现蛋白质功能预测的重要步骤。本文针对跨膜蛋白序列的生物学特征,提出了一种新的隐马尔科夫模型分段训练算法,对跨膜螺旋的分段位点以及螺旋方向等特征进行了建模和预测。同标准训练算法相比,该算法具有时间复杂度低、预测精度高等优点。对于包含160条跨膜螺旋的蛋白序列进行10次交叉验证的测试,结果使用该训练算法的预测准确率达到96.98%,正确定位精度为91.25%,高于其他预测方法对该数据集的预测结果,验证了该算法的合理性和有效性。 2.蛋白质可溶性表征蛋白质残基在三级结构中与溶剂接触的程度,是反映蛋白质三级结构以及功能位点的主要特征。按照蛋白序列中残基的相对可溶性,将其分为两类(表面/内部)和三类(表面/中间/内部)进行预测。采用Markov链模型,选择不同窗宽和参数对数据进行训练和预测,以确保得到最好的分类效果,并同其他已有方法进行了比较。对同一数据集不同分类阈值的预测结果显示,
|
全文目录
摘要 7-9 ABSTRACT 9-12 第1章 绪论 12-20 1.1 生物信息学 12-15 1.2 生物信息学中的统计预测方法 15-18 1.2.1 隐马尔科夫模型 16-17 1.2.2 支持向量机 17-18 1.2.3 k近邻方法 18 1.3 本文的研究介绍 18-20 第2章 基于隐马尔科夫模型的蛋白质跨膜螺旋的预测 20-42 2.1 绪论 20 2.2 隐马尔科夫模型 20-30 2.2.1 引言 20-21 2.2.2 HMM的基本原理 21-26 2.2.2.1 评估问题 22-23 2.2.2.2 解码问题 23-24 2.2.2.3 学习问题 24-26 2.2.3 HMM的优缺点 26 2.2.4 HMM的若干应用 26-30 2.2.4.1 基因查询 26-27 2.2.4.2 对序列家族的识别 27-28 2.2.4.3 对已知序列局部特征的检测与预测 28-30 2.2.5 结论 30 2.3 蛋白质跨膜螺旋的生物学基础 30-34 2.3.1 膜蛋白的存在形式 30-31 2.3.2 整合蛋白的穿膜现象 31-32 2.3.3 蛋白通过疏水区驻留在膜上 32-34 2.4 跨膜螺旋预测的一种分段训练算法 34-40 2.4.1 模型结构 34-35 2.4.2 学习算法 35-37 2.4.3 预测方法 37-38 2.4.4 评测手段 38 2.4.5 结果和讨论 38-40 2.5 本章小结 40-42 第3章 Markov链模型在蛋白可溶性预测中的应用 42-59 3.1 绪论 42 3.2 Markov链的介绍 42-47 3.2.1 Markov链的概念 42-43 3.2.2 转移概率 43-45 3.2.3 初始分布与绝对分布 45-47 3.3 蛋白质可溶性特征的生物学基础 47-49 3.3.1 氨基酸 47-48 3.3.2 残基可溶性 48-49 3.4 基于MCM的蛋白质残基可溶性分类的预测 49-57 3.4.1 MCM模型 49-53 3.4.1.1 数据获取 49-50 3.4.1.2 k阶MCM模型 50 3.4.1.3 在蛋白质可溶性预测中的具体应用 50-52 3.4.1.4 分类器设计 52-53 3.4.2 结果与讨论 53-57 3.4.2.1 预测及评价方法 54 3.4.2.2 数据集的选择 54-55 3.4.2.3 MCM阶数对预测精度的影响 55-56 3.4.2.4 与其他算法的比较 56-57 3.5 本章小结 57-59 第4章 基于机器学习方法的蛋白亚细胞定位的预测方法研究 59-88 4.1 绪论 59 4.2 蛋白亚细胞定位的生物学基础 59-62 4.3 特征和预测方法研究 62-82 4.3.1 常用的生物学特征 62-69 4.3.1.1 氨基酸组成 62-63 4.3.1.2 氨基酸对组成 63-64 4.3.1.3 蛋白结构信息 64 4.3.1.4 GO 64-66 4.3.1.5 profile 66-69 4.3.2 常用的预测方法介绍 69-75 4.3.2.1 神经网络 70 4.3.2.2 模糊k近邻算法 70-71 4.3.2.3 SVM 71-75 4.3.3 目前的一些预测方法 75-76 4.3.4 不同特征和分类器对预测结果的分析和比较 76-82 4.3.4.1 数据集 77 4.3.4.2 评价指标 77-79 4.3.4.3 结果和讨论 79-82 4.4 基于ensemble技术的亚定位方法 82-86 4.4.1 ensemble技术(多分离器的投票表决) 82-83 4.4.2 特征选取 83-84 4.4.3 结果和讨论 84-85 4.4.4 置信度评测 85-86 4.5 本章小结 86-88 第5章 基于k近邻和打分矩阵的磷酸化位点预测 88-104 5.1 绪论 88 5.2 蛋白质的磷酸化 88-92 5.2.1 磷酸化的生物学基础 88-89 5.2.2 目前对蛋白磷酸化的预测方法 89-92 5.2.2.1 NetPhosK 90 5.2.2.2 Scansite 90-91 5.2.2.3 KinasePhos 91-92 5.3 k近邻算法和打分矩阵 92-98 5.3.1 k近邻算法 92-95 5.3.1.1 最近邻法决策规则 93 5.3.1.2 最近邻算法的一些引中 93-94 5.3.1.3 改进的k近邻算法 94-95 5.3.1.4 最近邻方法中的最佳距离 95 5.3.2 打分矩阵 95-98 5.4 基于k近邻和BLOSUM62矩阵方法的磷酸化位点预测 98-103 5.4.1 特征选取 98-99 5.4.2 算法流程 99 5.4.3 实验数据 99-100 5.4.4 评测手段 100 5.4.5 结果与讨论 100-103 5.5 本章小结 103-104 第6章 总结和展望 104-107 参考文献 107-118 作者在读博期间发表的有关论文 118-119 致谢 119
|
相似论文
- UGM-Markov模型在轨交票务分析中的应用研究,U293.13;U239.5
- 中国卫生总费用影响因素与预测方法学研究,R197.1
- 数据挖掘在短期电力负荷预测中的应用研究,TM715
- 基于BP人工神经网络的多点非时序变形预测模型研究,P258
- 基于VMPSO-BP神经网络的话务量预测,TN929.5
- 深水钻井钻井液密度窗口及套管层次确定方法研究,TE52
- 基于机载激光雷达的亚热带森林参数估测,S771.8
- 组合预测中单项模型选择研究及其权重系数优化,O211.67
- 基于人工神经网络的热连轧性能预报研究及工艺优化,TG335.13
- 一种基于时间序列指数平滑的决策支持算法的研究,TP18
- 基于神经网络的财务困境判别模型及其实证研究,F275
- 通机产品售后质量损失预测方法及支持系统研究与应用,TH186
- 城市群城际轨道交通客流预测方法探讨,U293.13
- 建设用地需求量预测方法研究,F301.2
- 模糊控制在光伏最大功率追踪预测中的应用与研究,TM914.4
- 固井质量的灰色神经网络预测方法研究,TE256
- SiO_2气凝胶疏水隔热薄膜的常压干燥制备及其性能研究,TB383.2
- 武汉地铁施工引起地面沉降预测方法研究,TU478
- 灰岩裂缝储层地震识别技术研究,P631.4
- 一种基于MapGIS的煤炭资源潜力预测方法,P618.11
中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com
|