学位论文 > 优秀研究生学位论文题录展示

微卫星在基因组上的分布与功能及其计算方法初步研究

作 者: 郭文久
导 师: 李平
学 校: 四川农业大学
专 业: 作物遗传育种
关键词: 微卫星 生物信息学 perl编程 着丝粒 真核生物 原核生物 BLAST基因 基因组 孤儿基因 非孤儿基因 进化论
分类号: Q75
类 型: 博士论文
年 份: 2004年
下 载: 749次
引 用: 8次
阅 读: 论文下载
 

内容摘要


微卫星(Microsatellite)是基因组上由1-6个核苷酸为单位组成的重复,又称串联重复序列(Short Tandem Repeat,STR)和简单重复序列(Simple Sequence Repeat,SSR)。在基因组上由于微卫星具有普遍的多态性,是进行群体遗传变异分析、物种起源与进化研究、基因定型(genotyping)、指纹鉴定(fingerprinting)、法医科学(forensic science)、动植物育种等的较好的遗传标记而受到广泛关注。分析微卫星在基因组上的含量、分布及其相关信息,可提高微卫星应用的预见性。特别是目前已有更大的基因组序列数据库,这些研究将获得新的、更为准确并且具有普遍意义的结果。 本研究采用Per1为编程语言结合数据库技术等方法,对29个真核生物基因组和1180个原核生物基因组的DNA序列上长度超过12的微卫星进行了大规模的计算和统计分析。主要探索了如下几个问题:微卫星在染色体上的分布、在基因组范围内的含量和与遗传重组率的相关性、在真核和原核基因组上分布的共性和个性、微卫星的计算多态性与实验室PCR多态性的关系以及微卫星在孤儿基因和非孤儿基因中的分布性质等。通过这些研究,将为生物遗传、变异和进化发育提供重要的理论和应用基础。此外,还对微卫星的生物信息学本地计算的方法和基于Internet的远程WEB计算方法进行了探讨。取得的主要结果如下: 1.微卫星在染色体上的分布,在着丝粒及其附近区域的基因组序列中微卫星含量显著地低于染色体上其它区域,远离着丝粒部分的微卫星含量一般都比较高。即使是端着丝粒或者近端着丝粒,其微卫星含量都明显的比较低,表现了着丝粒的优先性。在拟南芥、水稻和人类基因组上的计算分析都得到非常一致的结果,但对于酵母等单细胞真核生物并不遵循这一规律。 2.在人类和水稻基因组中,计算最近两标记之间的微卫星含量与基因组在此区域的以centi-Morgan(cM)为单位的遗传重组值为数据对组成样本进行回归相关性分析。计算发现,在水稻基因组中,其spearman秩相关RS统计量等于0.3217,样本容量为2725,其两尾否定概率等于零。在人类基因组上也得到了Spearman RS统计量等于0.1111,样本容量等于2759,其两尾否定概率等于3.9045×10-9。 3.对29个真核和1180个原核生物基因组中的微卫星进行了计算和统计分析,结果表明:(1)微卫星在真核基因组中的含量一般比原核基因组的高,也有很多物种例外。(2)在真核基因组中微卫星含量在物种之间变异系数不是很大,29个真核物种的平均微卫星含量的变异系数为75%,而以病毒为代表的原核生物的变异系数为91%,推测原核生物是微卫星累积的物种,而真核生物为微卫星含量稳定的物种。(3)微卫星的总motif数量在原核物种中都比较少,在真核物种中一般比较多,那些微卫星含量超过真核物种平均水平的原核物种,其微卫星只是在局部位置的堆积,其motif数量仍然很小。(4)在真核和原核基因组中微卫星的motif数量与基因组大小都成正相关,在原核物种中微卫星含量与基因组大小也成正相关,但在真核基因组中,微卫星的含量与基因组大小不相关。 4.真核生物的微卫星分布还具有以下特点:(l)微卫星motif在物种之间使用频率是不一样的,只有A/T微卫星才是所有真核物种所共有的,没有任何一个微卫星motif是某一个物种所特有的。(2)微卫星motif越长,重复次数越少。(3)不同长度的微卫星在基因组内的变异性能是不一样的,长度小于3的微卫星在几乎所有的真核基因组内都有变异,而大于3的则有些变异性非常大,而有的则变异系数等于零;从微卫星总的变异性能看,一般比较长的微卫星变异系数较大。(4)海洋生物的微卫星motif使用频率与陆地动植物有所区别,尤其是长度短于5的微卫星。在海洋生物中,富含c/g的微卫星在基因组中变异比较大,而在陆地生物中,富含a/t的微卫星变异较大。 5.对微卫星在水稻孤儿基因与非孤儿基因之间的关系进行了计算和统计分析,结果表明:水稻孤儿基因总数为28532条序列,占50.9%,而非孤儿基因为27524条,占49.1%;孤儿基因中微卫星含量明显高于非孤儿基因;在组成上,不论在孤儿基因还是在非孤儿基因中,三核昔酸微卫星的含量都超过了50%,孤儿基因中的含量为68%,明显高于非孤儿基因的58%。 6.对水稻基因组中各成分的微卫星进行统计分析,结果表明:微卫星在基因的编码区和非编码区都有分布,主要是数量上的差异;在数量关系上,非编码区的微卫星含量大大高于编码区,但是三核营酸微卫星相反;在水稻EST中微卫星含量非常丰富;在微卫星motif长度使用上,二核普酸微卫星的含量最高,且以at八a微卫星占大多数;比较釉稻和粳稻基因组上的微卫星,发现它们在含量、组成和mot if使用频率上都非常相似。7.本文对研究中所涉及的计算方法也进行了大量的探索。用Perl对包括FASTA、GENBANK、xML和BLAST报告等转化和解析进行了编程;还对到TIGR、NCBI等进行大规模的Internet远程比对计算进行了编程;使用代理服务器的方法解决了NCBI 50个同时在线BLAST的限制;采用Perl Socket的无阻塞1/0编程技术,解决了Internet远程大规模并行BLAST计算的问题;在程序设计

全文目录


摘要  8-11
ABSTRACT  11-15
1 文献综述  15-43
  1.1 微卫星研究进展  15-25
    1.1.1 微卫星在基因编码区与非编码区的分布  15-17
    1.1.2 微卫星的功能观点  17-25
      1.1.2.1 染色体组织  18
      1.1.2.2 DNA高级结构  18-19
      1.1.2.3 端粒与着丝粒  19
      1.1.2.4 DNA代谢过程的调节  19-20
      1.1.2.5 DNA复制与细胞循环  20-21
      1.1.2.6 基因活性调节  21-25
  1.2 微卫星变异的突变机制  25-27
    1.2.1 复制滑动机理  25-26
    1.2.2 重组机理  26-27
    1.2.3 复制滑动与重组的互作  27
  1.3 进化基因组学上的遗传重组  27-32
    1.3.1 重组的生物学意义  27-29
    1.3.2 重组的检测  29
    1.3.3 检测重组的统计学方法  29
    1.3.4 重组检测方法的性能  29-30
    1.3.5 重组与亲缘关系的推断  30-31
      1.3.5.1 系统发生史估计的重组效应  31
      1.3.5.2 重组与分子钟  31
    1.3.6 网状进化论的表示  31-32
  1.4 着丝粒生物学  32-39
    1.4.1 着丝粒的生物学功能  32
    1.4.2 不同物种的着丝粒序列  32-33
    1.4.3 来自于非正常着丝粒的认识  33-34
    1.4.4 着丝粒决定模型  34-36
    1.4.5 着丝粒结构与功能的中的重复序列难题  36
    1.4.6 低等真核生物的着丝粒  36-37
    1.4.7 高等真核生物的着丝粒  37
    1.4.8 着丝粒的矛盾  37-38
    1.4.9 高等真核生物的着丝粒功能模型  38-39
  1.5 研究思路开题设想  39-43
2 、 数据收集与分析方法  43-47
  2.1 数据来源  43
  2.2 计算环境  43
  2.3 微卫星的计算标准  43-44
  2.4 微卫星含量的定义  44
  2.5 程序实现  44-47
3 结果与分析  47-135
  3.1 微卫星在物种间染色体上的分布  47-81
    3.1.1 微卫星在拟南芥(Arabidopsis thaliana)基因组染色体上的数量分布  47-52
    3.1.2 微卫星在水稻(Oryza sativa SSP.Japonica)基因组染色体上的分布  52-59
    3.1.3 微卫星在人类基因组染色体上的分布  59-73
      3.1.3.1 人类染色体测序与组装进展  59-62
      3.1.3.2 微卫星在人基因组染色体上的分布  62-73
      3.1.3.3 微卫星在人基因组染色体上的分布小节  73
    3.1.4 微卫星在酵母(Schizosaccharomyces pombe)基因组染色体上的分布  73-80
    3.1.5 微卫星在染色体上的分布小结  80-81
  3.2 微卫星在物种间的分布  81-96
    3.2.1 微卫星在真核生物物种间的分布  81-91
      3.2.1.1 真核生物基因组大小bps、微卫星motif数和含量之间的关系  84
      3.2.1.2 真核生物微卫星motif使用频率  84-85
      3.2.1.3 微卫星motif长度与重复次数的关系  85
      3.2.1.4 微卫星重复motif的变异能力统计  85-86
      3.2.1.5 真核生物不同重复motif长度的微卫星特点  86-91
    3.2.2 微卫星含量在病毒基因组上的分析  91-93
      3.2.2.1 病毒基因组大小bps、微卫星motif数与含量的相关分析  92-93
    3.2.3 真核生物微卫星与原核生物微卫星的比较  93-94
      3.2.3.1 微卫星含量的变异  93-94
      3.2.3.2 微卫星motif数的差异  94
    3.2.4 微卫星含量在原核和真核基因组上的比较  94-95
    3.2.5 微卫星在真核和原核基因组上的分布性质研究小结  95-96
  3.3 微卫星促进新基因的产生  96-100
    3.3.1 研究孤儿基因的意义  96-97
    3.3.2 水稻基因组的孤儿基因  97-98
    3.3.3 孤儿基因与非孤儿基因的微卫星含量关系  98-99
    3.3.4 在孤儿基因和非孤儿基因之间水稻微卫星的组成比较  99-100
    3.3.5 微卫星与孤儿基因的关系小结  100
  3.4 微卫星含量与遗传重组值的相关性  100-101
  3.5 微卫星在水稻基因组中的分布  101-106
    3.5.1 微卫星在水稻籼稻93-11和粳稻Nipponbare基因组之间的总量趋势的比较分析  101-102
    3.5.2 水稻基因组微卫星在基因内和基因间的比较分析  102-103
    3.5.3 二聚体核苷酸微卫星在基因组各成分上的关系  103-106
    3.5.4 水稻基因组微卫星分布性质小结  106
  3.6 本地BLAST比对与结果分解  106-107
  3.7 本地BLAST比对与结果分解  107-111
    3.7.1 本地BLAST比对  107-108
    3.7.2 比对结果分解  108-111
  3.8 大规模数据的远程计算方法研究  111-135
    3.8.1 大规模数据的TIGR的internet远程BLAST计算方法  111-114
    3.8.2 大规模数据的NCBI的internet远程BLAST计算方法  114-126
      3.8.2.1 基于Bioperi的NCBI远程网络BLAST  114-118
      3.8.2.2 基于LWP的NCBI远程BLAST  118-120
      3.8.2.3 通过Berkeley套接字(socket)的编程技术  120-126
    3.8.3 internet远程计算中的多进程与多线程程序设计实现  126-133
    3.8.4 internet远程计算中的基于socket的无阻塞技术  133-135
4 讨论  135-146
  4.1 微卫星分布的动力学模型  135-140
    4.1.1 微卫星在染色体上的分布  135-137
    4.1.2 微卫星含量与重组率相关性的直接证据  137
    4.1.3 微卫星在物种之间的变异。  137-139
      4.1.3.1 基因组内微卫星的变异性与PCR多态性的关系  138-139
    4.1.4 微卫星促进新基因的产生  139-140
  4.2 关于微卫星是生物进化动力还是生物进化的痕迹的问题  140-141
  4.3 生物信息学计算之我见  141-146
    4.3.1 数据库技术是计算生物学必须的数据组织与存取基础  141-142
    4.3.2 免费资源的重要性  142-143
    4.3.3 网络在生物信息学研究中起了关键作用  143-144
    4.3.4 计算生物学算法语言的选择  144-146
5 结论  146-147
参考文献(REFERENCES)  147-160
光盘附件1 (SUPP1.DOC)  160-161
  程序1 9311_syd_com_parse.pl:比对(Aligning)并且把比对结果存入SQL数据库,比对与应用Bioperl的BPlite模块进行本地blast的报告分解(parse)  160
  程序2 9311_931lest.pl:93-11基因组序列与93-11 EST序列的比对与分解程序  160
  程序3 3rduniq_irgp_com_parse.pl:93-11剩余序列与nipponbare shortgun数据的比对与分解程序  160
  程序4 ssr.pl:这是发表(Temnykh等2001)的ssr的Perl计算程序  160
  程序5 ssr_nature.pm:这是在ssr.pl基础上按照nature论文建议的ssr motif长度值设定的Perl模块,本模块有将在后面的ssr计算程序中大量应用的ssr函数。  160
  程序6 irgp_assembly_parse.pl:解读TIGR水稻基因组的XML坐标文件,提取水稻基因组的组装办法  160
  程序7 irgp_assembled_coordset.pl:irsgp水稻基因组的组装程序  160
  程序8 irgp_assembly_Ij.pl:计算水稻基因组组装之后的累计长度  160
  程序9 irgp_cdna_seq.pl:读去irsgp水稻基因组的cDNA的fasta格式文件到本地程序11 irgp_cdna_ssr_concat.pl:cDNA ssr motif合并程序数据库中  160
  程序12 irgp_epcr.pl:解读电子PCR的结果,并判断epcr的结果片段在基因组上各部分如基因、utr、intron等上的交叉情况  160
  程序13: 用ssr_nature.pm计算epcr结果片段中的微卫星  160
  程序14 irgp_genome_ssr_seg.pl:分段计算水稻基因组序列的微卫星  160
  程序15 ncbiestblast.pl:应用BioPerl的remoteblast模块进行的NCBI远程水稻EST比对与blast报告分解程序  160
  程序16 sca_reputer.pl:应用reputer在http://bibiserv.techfak.uni-bielefeld.de/cgi-bin/reputer_run上进行的远程重复序列计算  160
  程序17 segremoteblast.pl:ncbi进行远程部分93-11基因组的远程比对和blast报告解析,应用BioPerl模块进行  160
  程序18 9311_syd_com__parse.pl:应用BioPerl的本地比对模块进行的93-11基因组与nipponbare shorgun基因组的本地比对,计算时间约4天  160
  程序19 arab_ssr.pl:拟南芥基因组的微卫星计算程序  160
  程序20 get_genbank_access.pl:NCBI取基因组序列的批处理程序,通过internet到entrez获取。  160
  程序21 irgp_pseudo.pl:水稻拟(pseudo)染色体组装计算:  160
  程序23 eukaryotes.pl:同时读取所有真核生物基因组数据包括genbank和fasta格式到本地数据库,同时对genbank格式采用自己编写的分解程序,没有用Bioperl的SeqIO模块,因为此模块引起内存消耗太大,以至于引起内存溢出。  160
  程序24 eukaryotes_ssr.pl:从数据库中调出序列一次计算完所有的真核生物基因组的微卫星,计算时间在双CPU电脑上大约2天。  160
  程序25 eukaryotes_ssr_single.pl:单一化真核生物微卫星motif去掉重复的motif和与存在的motif互补的motif  160
  程序26 ncbi_send.pl:通过轮换使用多个代理服务器让NCBI认为是多个IP发送来的blast,以突破NCBI的每个IP地址同时50个在线blast任务的限制。  160-161
  程序27 ncbi_threads_fetch.pl:10个固定线程用于同时10个blast报告获取程序,以加速NCBI的比对  161
  程序28 virus_ssr.pl:病毒基因组的ssr计算程序  161
  程序29 virus_genome.pl:病毒基因组的微卫星含量计算程序程序  161
  程序30 virus_ssr_summary.pl:病毒微卫星含量计算及motif单一化程序  161
光盘附件2 (TABLES.XLS)  161-162
  光盘附表1 真核生物基因组情况表basic information of the eukaryotic genomes;  161
  光盘附表2 真核生物微卫星基因组大小与单一motif数、微卫星含量回归计算表computational tables of regression among the genome size,singular motifs and microsatellite content in eukaryotes;  161
  光盘附表3 真核生物物种微卫星重复数变异能力统计参数表microsatellite repeat number variation statistic in eukaryotes;  161
  光盘附表4 微卫星在真核生物物种中的重复频率(重复次数)一览表table of repeat frequencies(repeat number) of microsatellites in eukaryotes;  161
  光盘附表5: 不同长度聚类的各真核物种微卫星变异统计表statistic tables of microsatellites variation with different length in eukaryotes。  161
  光盘附表6 原核基因组一览表prokaryotic genome table;  161
  附表7 原核基因组大小、单一motif和微卫星含量的数量关系及回归计算表tables of regression computation and quantitative relation among genome size,singular motif number and microsatellite content in prokaryotes;  161
  光盘附表8: 真核生物微卫星变异系数与gc含量的相关分析计算表computational table of relation between microsatellite variable coefficient and GC content in eukaryotic genomes。  161-162
本研究的创新点  162-163
致谢  163-164

相似论文

  1. BioLab面向生物计算服务的网格系统,TP399-C8
  2. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  3. 基于基因组重排技术的1,3-丙二醇高产菌株选育,TQ923
  4. 湛江北部湾深水海域马氏珠母贝四种壳色选育系F5的生长速度、生长模型及其遗传多样性的SSR分析,S968.31
  5. 应用基因组改组技术选育真菌α-淀粉酶高产菌株,TQ925
  6. 南京地区西花蓟马Frankliniella occidentalis (Pergande)的发生调查及其线粒体基因组研究,S433
  7. 甘蓝型油菜多体附加系“Nj08-063”的农艺性状、细胞学与分子学鉴定研究,S565.4
  8. 高温蛋白酶Pgsey及解旋酶Htc16特征的初步研究,Q814
  9. 鸡传染性支气管炎病毒河南地方株分离鉴定及HN104株与HN091株全基因组序列测定,S852.65
  10. 河南低致病性禽流感病毒(H9亚型)分离鉴定及生物学特性研究,S852.65
  11. 铁皮石斛叶绿体微卫星的开发应用及其种间通用性研究,S567.239
  12. 夏南牛和皮南牛微卫星标记研究及生长发育模型的建立,S823
  13. 水葫芦对浮游动物群落及部分种群遗传结构的影响分析,X174
  14. 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
  15. 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
  16. 一个芥菜型油菜品种资源的线粒体基因组序列分析,S565.4
  17. 簇毛麦6V染色体短臂小片段易位系的分子细胞遗传学鉴定,S512.1
  18. 基于连锁图的QTL综合分析方法研究,S562
  19. 小麦族St基因组植物分子系统发育与分类,S512.1
  20. 猪链球菌2型感染小鼠腹腔巨噬细胞基因表达谱差异分析,S858.91
  21. 鸡新城疫病毒的分离鉴定及HN09-68和HN09-83株全基因组的分子特征,S852.65

中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com