学位论文 > 优秀研究生学位论文题录展示

基于随机森林的植物抗性基因识别方法研究

作 者: 郭颖婕
导 师: 郭茂祖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 抗性基因 特征提取 降采样 随机森林
分类号: Q943
类 型: 硕士论文
年 份: 2011年
下 载: 33次
引 用: 0次
阅 读: 论文下载
 

内容摘要


植物抗性基因的研究是目前生物信息学领域重要课题之一。自发现第一个抗性基因至今,已有70余条抗性基因经过生物实验验证,并逐步应用于分子育种、转基因等方面的研究中。越来越多的生物信息人员致力于从已有的测序数据中挖掘植物抗性基因,并分析其功能和作用机制。但目前的挖掘方法尚存在挖掘效率低、假阳性高以及无法发现新的基因家族等问题。因此,本文从分析抗性基因结构出发,结合机器学习方法,对抗性基因挖掘过程中分类工作涉及的若干关键问题进行研究。抗性基因的识别分类工作可归纳为机器学习中的二类分类问题,本文以抗性基因蛋白产物为研究对象,首先分析抗性蛋白数据保守结构域,以及各种理化特性对其抗性功能的影响,提取188维有效特征用于描述抗性蛋白序列。随后使用基于K-Means的聚类降采样算法,对具有严重类别不平衡性抗性基因数据集进行重建,以削弱其不平衡性。最后在重建的训练集上,利用随机森林算法构建可以识别抗性基因的分类器。实验表明,该算法的敏感性接近80%,特异性达到在90%以上,并且在反例集上的测试结果显示,该模型能够有效降低假阳性。因此,本文所提出抗性基因识别方法是有效的。

全文目录


摘要  4-5Abstract  5-8第1章 绪论  8-16  1.1 研究背景和意义  8-9    1.1.1 研究背景  8-9    1.1.2 研究意义  9  1.2 国内外研究现状  9-13    1.2.1 抗性基因定义及分类  9-11    1.2.2 现有抗性基因识别方法  11-13  1.3 论文进行的主要工作  13-15  1.4 本文的组织和安排  15-16第2章 抗性基因特征提取算法  16-31  2.1 数据集的构建方法  16-19  2.2 蛋白质序列的特征提取算法  19-23    2.2.1 基于氨基酸组成和位置的特征提取算法  19-21    2.2.2 基于氨基酸物理化学特性的特征提取算法  21-23    2.2.3 蛋白质特征提取算法小结  23  2.3 抗性基因特征提取  23-27  2.4 实验结果及分析  27-30    2.4.1 不同特征性能比较实验  27-29    2.4.2 AACDT 特征分析  29-30  2.5 本章小结  30-31第3章 基于聚类的数据集降采样算法  31-39  3.1 评价标准  32-33  3.2 基于 K-Means 的聚类降采样算法  33-34  3.3 实验结果及分析  34-37    3.3.1 降采样实验结果  34-36    3.3.2 降采样比λ的确定  36-37  3.4 本章小结  37-39第4章 基于随机森林的分类器构建  39-48  4.1 随机森林及其理论背景  39-44    4.1.1 随机森林定义  39-40    4.1.2 随机森林原理  40-41    4.1.3 随机森林的理论基础  41-43    4.1.4 随机森林优缺点  43-44  4.2 随机森林决策  44  4.3 实验结果及分析  44-47  4.4 本章小结  47-48结论  48-50参考文献  50-55攻读硕士学位期间发表的论文  55-57致谢  57

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 空间交会接近视觉测量方法研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 多币种纸币处理技术的研究与实现,TP391.41
  11. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 移动机器人视觉检测和跟踪研究,TP242.62
  14. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  15. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  16. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  17. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  18. 红外图像目标识别及跟踪技术研究,TP391.41
  19. 水下目标特征的压缩与融合技术研究,TN911.7
  20. 水稻恢复系明恢63稻瘟病抗性基因Pimh(t)的精细定位及主效QTLs检测,S511.21

中图分类: > 生物科学 > 植物学 > 植物细胞遗传学
© 2012 www.xueweilunwen.com