学位论文 > 优秀研究生学位论文题录展示

真核基因剪接位点识别算法研究

作 者: 吕俊杰
导 师: 王科俊
学 校: 哈尔滨工程大学
专 业: 模式识别与智能系统
关键词: 生物信息学 可变剪接 剪接位点识别 非翻译区 RNA二级结构
分类号: Q78
类 型: 硕士论文
年 份: 2010年
下 载: 75次
引 用: 1次
阅 读: 论文下载
 

内容摘要


可变剪接是调节高等真核生物基因表达的关键机制,因为它可以使一个单一的蛋白质编码基因产生多种转录体,极大的扩展了基因信息的应用。而且,越来越多的实例表明可变剪接与人类疾病高度相关,可变剪接模式的改变可以导致癌症发生。研究可变剪接调节的关键问题是:如何在海量的基因组序列中识别出剪接位点?围绕这一问题,本文对真核基因编码区与非翻译区分别建立了剪接位点识别模型。主要的研究工作如下:一、真核基因编码区剪接位点识别算法的研究。通过综合考虑编码区剪接位点的信号信息,序列信息,位点附近序列的二级结构信息,以及供体位点与受体位点附近序列的碱基统计特性的不同,剪接因子作用过程不同,分别建立了供体位点识别信号模型,受体位点识别信号模型,供体位点识别序列模型,受体位点识别序列模型,再应用Vienna软件中的Mfold包来预测每个剪接位点附近序列最稳定的二级结构,再将结构信息以一个两字符{S,L}表形式表示,组合了这两字符后,四字符核酸表转化为八字符核酸表,每个序列转化为八字符组合的序列,用这个结合了结构信息的序列对以上信号模型和序列模型进行训练。这个组合了信号信息,序列信息,结构信息的综合模型对编码区剪接位点的识别取得了很好的识别效果。二、真核基因非翻译区剪接位点识别算法的研究。和编码区一样,真核基因的非翻译区在转录后期也进行了剪接,但是在翻译时并不被翻译成蛋白质。非翻译区剪接位点的两侧不存在编码到非编码的状态转移,因为它的内含子和外显子均是非编码的,所以对非翻译区中的剪接位点进行识别较难。为有效地利用剪接位点附近核苷酸的特征,相关性等知识,以提高非翻译区的剪接位点识别性能,本文提出一种结合统计建模与机器学习相结合的方法实现对非翻译区剪接位点的识别。该方法主要分为两个阶段,第一阶段应用统计学方法建模,第二阶段为带有多项式核函数的支持向量机(SVM)。第一阶段作为支持向量机的预处理步骤,输入UTR序列,模型将核苷酸的组成特点,相关性用概率参数形式描述,并把这些概率参数输入支持向量机,将他们非线性的组合起来预测剪接位点。通过对人类5’UTR中剪接位点数据集进行验证,该模型取得了较好的效果。

全文目录


摘要  5-7
ABSTRACT  7-11
第1章 绪论  11-29
  1.1 引言  11-12
  1.2 选题目的与意义  12-15
  1.3 可变剪接机制的研究现状  15-21
  1.4 剪接位点识别研究现状  21-27
    1.4.1 影响剪接位点识别的因素  21-24
    1.4.2 剪接位点识别的方法  24-27
  1.5 本文的主要工作和章节安排  27-29
第2章 真核基因剪接的生物学基础  29-41
  2.1 引言  29
  2.2 分子生物学中心法则  29-30
  2.3 真核基因的表达调控  30-34
    2.3.1 真核基因的结构  31-33
    2.3.2 真核基因的转录  33-34
    2.3.3 真核基因的翻译  34
  2.4 真核基因的剪接机制  34-40
    2.4.1 剪接体的装配过程  35-37
    2.4.2 剪接的基本步骤  37
    2.4.3 可变剪接机制  37-40
  2.5 本章小结  40-41
第3章 真核基因编码区剪接位点识别  41-60
  3.1 引言  41-42
  3.2 HMM 理论  42-50
    3.2.1 HMM 的基本原理  42-43
    3.2.2 HMM 需解决的基本问题  43-48
    3.2.3 HMM 在剪接位点识别中的应用  48-50
  3.3 RNA 二级结构预测  50-51
    3.3.1 RNA 二级结构简介  50-51
    3.3.2 RNA 二级结构预测主要方法  51
  3.4 真核基因编码区剪接位点识别算法描述  51-55
    3.4.1 评价指标  53
    3.4.2 信号模型  53-54
    3.4.3 序列模型  54-55
    3.4.4 二级结构预测  55
  3.5 实验结果及讨论  55-59
    3.5.1 数据准备  55
    3.5.2 结果与讨论  55-59
  3.6 本章小结  59-60
第4章 真核基因非翻译区剪接位点识别  60-76
  4.1 引言  60-61
  4.2 支持向量机理论基础  61-66
    4.2.1 最优分类面  62-65
    4.2.2 核函数  65-66
  4.3 非编码区剪接位点识别  66-71
    4.3.1 供体位点识别  69-70
    4.3.2 受体位点识别  70-71
  4.4 试验结果与讨论  71-74
    4.4.1 数据准备  71
    4.4.2 结果与讨论  71-74
  4.5 本章小结  74-76
结论  76-79
参考文献  79-89
攻读硕士学位期间发表的论文和取得的科研成果  89-90
致谢  90

相似论文

  1. BioLab面向生物计算服务的网格系统,TP399-C8
  2. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  3. 高温蛋白酶Pgsey及解旋酶Htc16特征的初步研究,Q814
  4. 鸡Δ~6脂肪酸脱氢酶基因启动子区域多态性及基因时空表达的研究,S831
  5. 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
  6. 烟粉虱田间种群抗药性监测及BtGluClα1基因组结构的分析,S433
  7. 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
  8. 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
  9. 两个玉米转录因子ZmC4HC3和ZmNAC的克隆与表达分析,S513
  10. 水稻Rho家族OsRacD及其5种潜在互作蛋白的生物信息学分析,S511
  11. 斯氏按蚊感染约氏疟原虫后24小时差异表达基因的筛选与分析,R531.3
  12. 家蚕HSP基因的表达调控研究,S881.2
  13. 电离辐射诱发microRNA表达改变及其对辐射损伤调控机制,R144
  14. 基于条件随机场的RNA二级结构预测算法,R346
  15. 上海近郊某地区犬Torque Teno virus感染率调查及全基因组序列分析,S858.292
  16. 幽门螺杆菌感染调控胃癌相关基因可变剪接的初步研究,R735.2
  17. 菜粉蝶线粒体基因组全序列及其不同地理居群的nrDNA ITS1序列的比较分析,Q963
  18. 蛋白质-DNA结构模型比较及其在转录因子结合位点预测中的应用,Q51
  19. 生物途径数字化策略及其在共生固氮网络数据库中的实现,Q811.4
  20. 面向DAG数据依赖型应用系统研究与实现,TP311.1
  21. 桉树木质素合成途径两个关键基因的克隆与功能研究,S792.39

中图分类: > 生物科学 > 分子生物学 > 基因工程(遗传工程)
© 2012 www.xueweilunwen.com