学位论文 > 优秀研究生学位论文题录展示
基于多特征的水平转移基因的预测研究
作 者: 熊大鹏
导 师: 肖芬
学 校: 湘潭大学
专 业: 计算机科学与技术
关键词: 水平基因转移 计算方法 结合多特征 支持向量机 遗传算法
分类号: Q75
类 型: 硕士论文
年 份: 2013年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
水平基因转移(又称为侧向基因转移)是指生物将遗传物质传递给其他细胞而非子代的过程,在物种进化和微生物基因组多样化中发挥着关键的作用。遗传物质的转移可以发生在亲缘和远缘的物种或菌株中,是非常频繁的事件。在单细胞生物体中,它或许是遗传物质交流的主要形式。另外,水平基因转移被认为能导致许多人类疾病的发生,对人类构成许多威胁。随着序列数据越来越多,大量的现象表明水平基因转移的发生。因此水平转移基因的预测对于更好的了解其对基因组进化的的影响和识别新的药物靶标具有巨大的实用意义。迄今为止,大量的识别水平转移基因的计算方法被提出,然而通过分析,可以发现,他们都没有提供可靠的预测。现有的计算方法主要分为系统发育方法和参数方法,然而系统发育方法是耗时且不充分鲁棒的。在现有的参数方法中,仅仅有一个单独的组成特征用于预测实验,或者将由单个特征得到的结果简单地结合。我们知道不同的特征表征不同的信息,因此单个的特征是不能充分的表征序列编码的信息的。另外,以往的使用机器学习的方法也都没有考虑数据集的分类不平衡问题,这个问题对分类结果会产生较大的误差。针对以上不足,我们结合多特征,并使用支持向量机开发了一种有效的分类器(Hgtident),有效地提高了预测精度。Hgtident包括全面且有代表性的特征提取、支持向量机模型的选择、基于遗传算法的特征选择、分类不平衡问题的处理和广泛的系统交叉验证的性能评价。通过特征选择,我们发现特征JS-DN和JS-CB有更高的识别水平转移基因的能力,GC1-GC3和K-mer(1≤K≤7)具有最弱的识别能力。实验表明Hgtident有效地提高了Recall,并大幅降低了Mean error。与现有流行的多阈值方法相比,本文的Recall平均提高了2.81%,Mean error平均大幅降低26.32%,不仅表明大量的假阳性得以校正,也表明了我们观点的有效性和可靠性。本文所使用的方法Hgtident是第一次的基于综合的方法来预测水平转移的基因,它是一种有效的预测水平转移的基因的方法。广泛的实验表明结合多特征对于大范围的水平转移基因的识别是必要的。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-18 1.1 引言 9-10 1.2 水平基因转移的概念 10-11 1.3 水平基因转移的机制 11-14 1.3.1 原核生物中的水平基因转移 11-13 1.3.2 真核生物中的水平基因转移 13-14 1.4 水平基因转移的研究意义 14-15 1.4.1 加快基因组进化速度 14-15 1.4.2 促进生物进化 15 1.4.3 促进物种趋同进化 15 1.5 水平基因转移的研究内容 15-17 1.6 本文的研究内容和章节安排 17-18 第2章 预测水平转移基因的研究方法 18-28 2.1 系统发育方法(Phylogenetic approaches) 18-21 2.2 参数方法(Parametric approaches) 21-28 2.2.1 常用的特征 22-28 第3章 多特征结合用于水平转移基因的预测 28-36 3.1 基础知识 29-32 3.1.1 支持向量机(Support vector machine, SVM) 29-31 3.1.2 遗传算法(Genetic algorithm, GA) 31-32 3.1.3 SMOTE(Synthetic minority over-sampling technique)算法 32 3.2 实验方案设计 32-35 3.2.1 组成特征提取 33 3.2.2 模型选择 33-34 3.2.3 特征选择 34 3.2.4 SMOTE用于分类不平衡问题 34-35 3.3 总结 35-36 第4章 实验结果与讨论 36-48 4.1 实验条件 36-37 4.1.1 数据集 36 4.1.2 评价标准 36-37 4.2 结果与讨论 37-46 4.2.1 特征选择结果 37-39 4.2.2 分类不平衡学习结果 39 4.2.3 与多阈值方法的比较 39-46 4.3 结论 46-48 第5章 总结与展望 48-50 5.1 论文工作总结 48-49 5.2 论文工作展望 49-50 参考文献 50-57 致谢 57-58 攻读硕士学位期间发表的学术论文及科研成果 58
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com
|