学位论文 > 优秀研究生学位论文题录展示

基于二级结构的非编码RNA挖掘方法研究

作　者: 邹权
导　师: 郭茂祖
学　校: 哈尔滨工业大学
专　业: 人工智能与信息处理
关键词: 非编码RNA 数据挖掘 RNA二级结构预测类别不平衡分类 microRNA前体生物信息学
分类号: Q75
类　型: 博士论文
年　份: 2009年
下　载: 175次
引　用: 0次
阅　读: 论文下载

内容摘要

非编码RNA的研究是目前生物信息学领域最重要的课题之一。步入21世纪以来,关于非编码RNA的研究连续获得Science评选的年度十大科学突破,并在2006年获得了诺贝尔生物或医学奖。越来越多的生物信息学研究人员致力于从已有的测序数据中挖掘非编码RNA,并分析其功能。但目前的挖掘方法还存在挖掘效率低、假阳性高、无法发现新家族等缺憾。因此,本文从分析RNA的结构出发,结合并改进分类学习方法,对非编码RNA挖掘中的若干关键问题进行深入的研究。本文的主要内容包括:(1)提出处理生物信息学中普遍存在的训练样本不平衡的分类方法。生物信息学中存在大量的正反例不平衡的学习问题,这是由于现实分布的特点,另一方面也由于获得正例花费的成本远远高于反例。本文提出一种处理正反例不平衡的分类方法,以解决生物信息学中的snoRNA识别、microRNA前体判别、SNP位点的真伪识别等问题。本文方法利用集成学习的思想,将反例集均匀分割并依次与正例集组合,得到一组类别平衡的训练集;然后对每个训练集采用不同原理的分类器进行训练;最后投票表决待测样本。为了避免弱分类器影响投票效果,本文结合AdaBoost思想,将每个分类器训练中产生的错误样本加入到下两个分类器的训练集中,这种做法既避免了AdaBoost的反复训练,又有效地利用了投票机制遏制了弱分类器的影响。五组UCI测试数据和三组生物信息学实验证明了本方法在处理类别不平衡的分类问题时的优越性。此外,本文还开发了基于该方法的软件libID,以方便广大同行使用。(2)提出RNA二级结构的“质心”表示方法和基于它的二级结构预测算法。目前RNA的各种二级结构表示方法,均不能快速地衡量两个RNA分子二级结构的相似程度。针对该问题本文提出“质心”的概念来描述RNA分子中各个茎区的位置,并且衍生出“质心距”、“D函数”等概念来进一步刻画茎区之间、二级结构之间的相似程度。基于这种快速衡量二级结构相似程度的方法,本文分别对比较序列分析法和最小自由能方法做出改进。对于比较序列分析法,提出一套独立于多序列比对的预测算法;对于最小自由能法,结合RNA的类别信息,进一步提高预测效果。(3)对目前挖掘microRNA的两种思路进行了研究,并深入的分析和讨论了其中的部分关键问题。同源比对和从头预测是目前挖掘microRNA的两种思路。同源比对方法是目前的主要方法,本文提出一种基于关键字树的比对搜索算法,提高了搜索的精度同时又降低了期望时间开销。将本文的方法分别应用于大豆和家蚕上均取得了较好的效果。从头预测方法基于机器学习思想,是未来的发展方向,它有利于发现新家族,不过成熟体定位问题一直是该方法的瓶颈。本文从两个角度对该问题进行了深入的探讨,取得了较准确的结果。尽管没有完全解决该瓶颈,但为该问题的深入研究奠定了基础。(4)结合本文提出的二级结构预测算法和样本类别不平衡的分类算法,挖掘snoRNA。目前的snoRNA挖掘方法大都是基于靶标信息的。随着“孤儿”snoRNA等新的功能性snoRNA的发现,独立于靶标信息的挖掘方法受到越来越多的关注。相比于目前的挖掘方法,本文将外显子序列引入训练集,提取了更为显著的二级结构特征,应用本文提出的专门处理类别不平衡的分类器,得到了一套更为有效和准确的snoRNA挖掘方法。特别地,本文还针对snoRNA的特殊二级结构,提出了有效的二级结构预测算法,并且应用于挖掘的特征提取过程中,这在国际上尚属首次。交叉验证和基因组片段上的挖掘实验证明了本文方法的有效性。

全文目录

摘要  4-6
ABSTRACT  6-14
第1章绪论  14-29
  1.1 课题背景及意义  14-16
    1.1.1 研究背景  14-15
    1.1.2 研究意义  15-16
  1.2 相关知识介绍  16-22
    1.2.1 主要的非编码RNA  16-19
    1.2.2 预测的衡量标准  19-22
  1.3 国内外研究现状  22-27
    1.3.1 国外研究现状  22-25
    1.3.2 国内研究现状  25-27
  1.4 本文主要工作  27-29
第2章训练样本类别不平衡的分类方法研究  29-44
  2.1 引言  29-31
  2.2 基于集成学习思想的处理方法  31-35
    2.2.1 基于投票机制的集成学习方法  31-32
    2.2.2 基于重复训练错分样本的优化策略  32-35
  2.3 实验与分析  35-43
    2.3.1 UCI 数据上的实验  35-37
    2.3.2 microRNA 数据上的实验  37-38
    2.3.3 SNP 挖掘问题上的实验  38-42
    2.3.4 讨论与分析  42-43
  2.4 本章小结  43-44
第3章 RNA 二级结构预测方法研究  44-69
  3.1 引言  44-51
    3.1.1 RNA 的二级结构  44-47
    3.1.2 基于最小自由能预测二级结构  47-49
    3.1.3 比较序列分析法预测二级结构  49-51
  3.2 质心与质心距  51-58
    3.2.1 RNA 二级结构的主要描述方法  51-52
    3.2.2 一种全新的二级结构描述方法  52-55
    3.2.3 凸环与内环的质心  55-57
    3.2.4 茎区的位置关系  57-58
  3.3 基于质心的比较序列分析方法  58-62
    3.3.1 问题描述  58-59
    3.3.2 算法及时间复杂性  59-61
    3.3.3 实验和讨论  61-62
  3.4 基于质心和类别驱动的二级结构预测方法  62-67
    3.4.1 贪心算法和处理假结  62-64
    3.4.2 D 函数初始化的Hopfield 网络  64-65
    3.4.3 实验和讨论  65-67
  3.5 本章小结  67-69
第4章 microRNA的挖掘方法研究  69-89
  4.1 引言  69-70
  4.2 基于同源比对的microRNA挖掘方法  70-81
    4.2.1 基于关键字树的同源搜索算法  70-73
    4.2.2 基于同源比较的挖掘算法  73-76
    4.2.3 基于关键字树的多序列比对算法  76-81
  4.3 基于从头预测的microRNA挖掘方法  81-87
    4.3.1 在前体中预测成熟体  81-84
    4.3.2 基于多示例学习的microRNA 识别方法  84-87
  4.4 本章小结  87-89
第5章 snoRNA挖掘方法研究  89-100
  5.1 引言  89-91
  5.2 snoRNA的二级结构  91-92
  5.3 基于二级结构特征的挖掘算法  92-94
  5.4 实验验证  94-99
    5.4.1 新特征效果验证  94-95
    5.4.2 分类器效果验证  95-96
    5.4.3 组合效果验证  96-97
    5.4.4 挖掘效果验证  97
    5.4.5 实现与讨论  97-99
  5.5 本章小结  99-100
结论  100-102
参考文献  102-115
攻读博士学位期间发表的论文及其它成果  115-118
致谢  118-120
个人简历  120

基于二级结构的非编码RNA挖掘方法研究

内容摘要

全文目录

相似论文