学位论文 > 优秀研究生学位论文题录展示
蛋白质结构类与功能预测及物种亲缘分析问题的非线性方法研究
作 者: 韩国胜
导 师: 喻祖国
学 校: 湘潭大学
专 业: 应用数学
关键词: 低同源蛋白质 蛋白质结构类 二级结构元比对 亚细胞位置 递归定量分析 Hilbert-Huang变换 最大相关最小冗余 亚细胞核位置 两阶段多类支持向量机 氨基酸分类 两步最优特征选择 脊椎动物 线粒体基因组 马尔科夫链 混沌游戏表示
分类号: Q51
类 型: 博士论文
年 份: 2013年
下 载: 56次
引 用: 0次
阅 读: 论文下载
内容摘要
随着生物技术的不断进步与生物信息学研究的不断深入,生物学数据每年在以指数级增长。仅仅靠既昂贵又耗时的生化实验来分析这海量级数据及其相关的生物学问题,已变得不太现实。为适应这种需求,研发可靠高效的计算方法和算法已迫在眉睫。本文主要以非线性科学方法作为模型,研究了蛋白质结构类和功能预测及物种亲缘分析中的一些问题,具体工作如下:第二章我们将研究低同源蛋白质的结构类预测问题。基于被预测的蛋白质二级结构信息,我们提出了一种新的简单的核函数方法来预测蛋白质的结构类。蛋白质二级结构信息是由流行的蛋白质二级结构预测工具PSIPRED预测得到。然后基于二级结构元比对打分构造了一个线性核函数,并作为预置核函数来训练支持向量机分类器。我们的方法没有可变参数要训练。最后我们的方法被应用到两个公开的低同源训练集上,并取得了良好的分类效果。与现有方法相比,我们的方法不仅提高了总的预测精度,而且在分辨α+β类和α/β类上呈现出更高的精度。这也说明基于二级结构元比对打分的线性核函数比基于蛋白质二级结构的统计信息更能捕获蛋白质二级结构序列之间的相似性。第三章我们将研究蛋白质的亚细胞位置定位问题。蛋白质的亚细胞位置和其生物功能是紧密相关的。氨基酸组分是蛋白质亚细胞位置定位的一个重要模型,但是其忽略了蛋白质序列顺序信息。为了弥补氨基酸组分模型的不足,我们使用了递归定量分析和Hilbert-Huang变换。这两个方法分别可以提取时间序列中的递归模式和不同频率信息。为了使用这两种方法,我们使用氨基酸的疏水性自由能和可溶性特性将每条氨基酸序列转化为两条时间序列。综合氨基酸组分、递归定量分析和Hilbert-Huang变换这三个模型总共产生62个特征。最终,每条蛋白质序列由62维特征向量表示。我们使用最大相关最小冗余方法来排列这62个特征,并仍旧使用SVM作为分类模型。使用刀切检验选择最优特征子集和评估这个方法的性能。我们方法测试了三个凋亡蛋白数据集,并从最终的结果中可得出,我们的方法使用相对较少的特征达到了较好的预测精度。这说明我们的方法对已有方法可能起到弥补作用。第四章我们将研究蛋白质亚细胞核位置定位问题。比起蛋白质的亚细胞位置定位,蛋白质亚细胞核位置定位更具挑战性。我们设计了一个新的两阶段多类支持向量机(two-stage multiclass support vector machine),并成功地将它应用到蛋白质亚细胞核预测。我们综合使用了两类特征提取方法:基于氨基酸分类的方法和基于氨基酸物理化学性质的方法。为了减少计算复杂度和特征冗余,我们提出了一个“两步最优特征选择方法”(two-step optimal feature selection)来寻找最优特征子集。在我们设计的系统中,所有的分类子是用带有概率输出的支持向量机构造的。我们使用径向基核函数,它的参数是由一个自动优化方法来确定,这进一步加速了我们的方法。一个权重策略是被用来处理不平衡数据集的问题。最后,我们方法和已有方法在三个测试集上的比较结果表明我们的方法是更加有效的,而且我们方法的结果优于单独使用支持向量机分类子和随机森林等分类子的结果。第五章我们将研究脊椎动物的亲缘关系分析。我们选取线粒体基因组作为我们的数据。我们首先利用DNA序列的混沌游戏表示(chaos game representation,CGR)来表示线粒体基因组。然后我们使用两种马尔科夫链(Markov chain)模型来模拟线粒体基因组,并将其作为基因组序列的噪声背景(noise background)候选模型。然后,我们基于这两个模型构造无比对方法,并应用在分析64个脊椎动物的亲缘关系分析中。最后,我们发现,在模拟线粒体基因组的CGRs方面,二阶马尔科夫链模型比一阶马尔科夫链模型更精细;但是,一阶马尔科夫链模型的CGR更适合用来表示随机背景,从原始CGRs中去除这个随机背景能增强线粒体基因组中的进化信息。
|
全文目录
摘要 5-7 Abstract 7-14 第一章 绪论 14-21 1.1 研究背景 14-16 1.2 蛋白质结构和功能关系研究 16-18 1.3 系统发生分析 18-19 1.4 本文工作及创新之处 19-21 第二章 基于二级结构元比对核方法预测蛋白质结构类 21-37 2.1 基础知识及研究背景 21-26 2.1.1 基础知识 21-24 2.1.2 研究背景及动机 24-26 2.2 数据集与方法 26-33 2.2.1 数据集 26-27 2.2.2 二级结构元比对核的构造 27-28 2.2.3 支持向量机 28-32 2.2.4 性能评估 32-33 2.3 结果与讨论 33-36 2.3.1 基准数据集上的预测性能 33-34 2.3.2 与已有方法的比较 34-36 2.4 本章小结 36-37 第三章 基于递归定量分析和 Hilbert 黄变换预测凋亡蛋白的亚细胞位置 37-58 3.1 基础知识及研究背景 37-40 3.1.1 基础知识 37-39 3.1.2 研究背景 39-40 3.2 模型与方法 40-52 3.2.1 氨基酸组分 40-41 3.2.2 递归图和递归定量分析 41-46 3.2.3 Hilbert-Huang变换 46-50 3.2.4 特征选择方法 50-51 3.2.5 支持向量机 51-52 3.2.6 预测性能评估 52 3.3 结果与讨论 52-57 3.3.1 数据集 52 3.3.2 凋亡蛋白亚细胞位置定位 52-56 3.3.3 与已有方法比较 56-57 3.4 本章小结 57-58 第四章 基于蛋白质一级结构和两阶段支持向量机方法的亚细胞核定位研究 58-79 4.1 引言及研究背景 58-60 4.2 方法与模型 60-65 4.2.1 基于氨基酸分类的特征提取方法 60-61 4.2.2 基于物理化学性质的特征提取方法 61-65 4.3 结果与讨论 65-78 4.3.1 数据集 65-66 4.3.2 系统构造 66-67 4.3.3 性能评估 67-68 4.3.4 特征提取方法比较:网格搜索vs自动搜索 68-69 4.3.5 与已有方法比较 69-73 4.3.6 特征贡献分析 73 4.3.7 和其它流行分类子的比较 73-76 4.3.8 置换分析评价分类模型的可靠性 76-78 4.4 本章小结 78-79 第五章 基于马尔科夫链模型和线粒体基因组的脊椎动物系统发生分析 79-90 5.1 引言及研究动机 79-80 5.2 数据和方法 80-84 5.2.1 基因组数据集 80 5.2.2 马尔科夫链模型模拟线粒体基因组的CGR 80-82 5.2.3 基于线粒体基因组的CGR和简单相关距离法的脊椎动物系统发生分析 82-84 5.3 结果和讨论 84-89 5.4 本章小结 89-90 第六章 总结和工作展望 90-93 参考文献 93-112 致谢 112-113 附录 113-114
|
相似论文
- 桡动脉超声多普勒血流信号的特征提取及分类研究,TP391.41
- 南京地区西花蓟马Frankliniella occidentalis (Pergande)的发生调查及其线粒体基因组研究,S433
- 漓江流域大型底栖无脊椎动物群落结构与水质生物评价,X826
- 浙江西苕溪流域城镇溪流大型底栖无脊椎动物多样性研究,X826
- 一个芥菜型油菜品种资源的线粒体基因组序列分析,S565.4
- 蚜虫代表物种的线粒体基因组研究,Q953
- 输电线路动态容量系统应用分析及其风险评估方法,TM76
- 东方田鼠线粒体基因组序列及Y染色体部分序列的测定及分析,Q953
- 基于马尔科夫链的电主轴无线传感监测旋转信道建模研究,TP274
- 旅游者时空行为的马尔科夫链分析,F224
- 基于粒度下的蛋白质序列的分析,Q51
- 菜粉蝶线粒体基因组全序列及其不同地理居群的nrDNA ITS1序列的比较分析,Q963
- 圆舌浮蛙(Occidozyga martensii)线粒体基因组结构及新蛙亚目的系统发生关系研究,Q78
- 泽鳄(Crocodylus palustris)和菲律宾鳄(Crocodylus mindorensis)线粒体基因组全序列及鳄目的系统发生关系研究,Q951
- 两爪鳖和山瑞鳖线粒体全基因组分析及其在龟鳖目中的系统学地位,Q78
- 设备振动信号的HHT分析与应用研究,TH165.3
- 统计模拟肽及蛋白质的性质和活性,O629.73
- 配电网高压测量中故障定位技术研究,TM862
- 中、日白姑鱼的形态学和遗传学研究,S917.4
- 池碟蚌线粒体全基因组序列分析,S917.4
- 皱纹盘鲍和杂色鲍的线粒体编码区序列分析,S917.4
中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com
|