学位论文 > 优秀研究生学位论文题录展示

微阵列数据处理平台的设计与实现

作 者: 孙显赫
导 师: 邓亲恺
学 校: 南方医科大学
专 业: 计算机应用技术
关键词: 微阵列 生物信息学 寡核苷酸微阵列 双色点样微阵列 组织微阵列 R语言 Bioconductor 结核分支杆菌 结核性脑膜炎 异烟肼
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 64次
引 用: 0次
阅 读: 论文下载
 

内容摘要


人类基因组计划推动了后基因组和功能基因组的研究,要同时研究生物体成千上万条基因的功能,特别是研究基因与基因之间表达与调控的复杂网络关系,显然传统的研究方法效率太低,无法适应基因组与功能基因组研究的要求。微阵列技术正是在这种环境下应运而生的。在微阵列分析中,从细胞中抽提得到mRNA,把mRNA进行荧光标记,然后和含有基因序列的玻璃芯片进行杂交。芯片上每个点能和杂交液中荧光标记的特异性cDNA发生杂交结合,使得每个点的荧光信号和基因表达的丰度成正相关。荧光信号的强弱能以彩色模式来显示。然后基因表达可以通过芯片上每个位置的荧光信号强度来定量。基因表达谱能揭示在生命活动过程中发生的许多变化,这一技术已经广泛应用于生物学和医学的各个研究领域。微阵列技术的出现给生命科学的很多领域都带来了一场革命。例如通过比较正常组织和疾病组织的表达谱差异,可以了解疾病发生的分子基础,从而更好的预防和治疗。通过比较病人疾病发生的过程及用药过程基因表达的变化情况,从而实现毒理研究、药物发现和临床药效研究。通过全基因组表达谱研究,可以了解生命,也可以建立各种细胞和组织在不同时期的基因表达数据库,为研究人员提供帮助。在微阵列技术迅速发展的同时,数据也在不断地增加,如何有效地处理和管理芯片实验所产生的海量数据越来越引起研究者们的广泛关注。微阵列数据分析需要新的算法、软件和强大的计算平台的支持。本文首先针对微阵列数据分析的研究现状,总结了微阵列数据分析软件和数据库中存在的问题,这些问题主要表现在有些只专用于某一特定的芯片设备;有些只能在特定的操作系统下运行,而且对计算机硬件配置要求较高;有些是商业软件,费用很高;有些要设置的参数较多,要求生物学家对算法方面有很深的了解;有些采用命令行方式控制,没有图形化接口。一些生物学家需要花大量的时间来学习软件操作,而且使用多个软件才能得到预想的结果。因此,针对上述问题有必要开发一个操作界面友好、功能较全面、面向生物学家的微阵列数据处理平台。平台采用浏览器/服务器(Browser/Server, B/S)网络构架,用户可以在个人计算机上通过web浏览器来操作,本平台针对的是目前大多数实验室常用的三种芯片:寡核苷酸微阵列、cDNA微阵列和组织微阵列。用户将数据提交到相应的web服务器,同时选择参数,服务器进行分析和处理后,将结果返回到用户浏览器或用户文件夹以便用户下载。服务器的硬件平台为一台装有Linux操作系统的高性能计算机(PowerCluster8000IN),网络服务器为Apache HTTP,平台数据管理则采用MySQL数据库,并用Perl语言做后台的开发工具,整合了R和Bioconductor的多个软件包的功能,HTML编写前台网页。最后数据分析的结果以表格、文本或图像形式返回用户平台。R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台,它有非常强大的统计分析,如参数估计、假设检验(包括参数检验和非参数检验)、回归分析(包括一元线性回归、多元线性回归、逐步回归和广义线性回归等)、时间序列分析、分类和聚类等。R语言还提供各种图形化显示工具,如散点图、箱线图、聚类图形等。构建于R平台上的Bioconductor计划是专门为计算生物和生物信息学而建立的。早期的微阵列数据处理一般都集中在简单的单基因为独立变量的假设下,根据临床参数和t检验的方法被广泛应用。Bioconductor可以提供很多更加合理的统计方法,它包括很多软件包,而且也是开源和开放的,用户可以了解算法的本质,可以改进和扩充软件的功能。所以本平台用Perl语言整合了Bioconductor中的很多软件包针对不同的微阵列数据进行分析。本平台的主要功能有:(1)寡核苷酸微阵列数据分析:读取原始数据;数据的预处理,如消除非特异性杂交的影响而进行背景校正,或为了从生物学角度上更好地解释及使数据满足特定的数据分布,通常对荧光强度数据进行对数转换,还包括异常值和缺失值的处理,重复数据的合并等;归一化是针对系统偏倚产生的原因而进行的;质量评估可以通过散点图、箱图等评估数据处理后的质量好坏;差异表达基因分析包括参数法(包括u检验、t检验、卡方检验和F检验等)以及非参数法(如传统的秩和检验、经验贝叶斯法、混合模型法、芯片显著性分析等);基因注释和功能分析包括各个数据中对于基因的标号、GO注释、KEGG注释、PubMed及超链接等信息,快速有效的基因注释对进一步识别基因,研究基因的调控机制,研究基因在生物体代谢途径中的地位等具有重要的意义。(2) cDNA微阵列数据分析:预处理,质量评估,统计分析。与寡核苷酸微阵列数据的处理与分析功能非常相似,本文所用统计方法为贝叶斯方法。(3)组织微阵列数据分析:用随机森林算法对样本进行分类,所用的软件包为Bioconductor中的randomForest。该算法可以应用少数几个指标就能很准确的判断样本的分类,可以对病例进行分析,这有很好的应用前景,例如,根据p53等少数几个指标,可以判断患者是否患有该种疾病或属于疾病的何种分型,对于前期诊断非常有意义,由于不用太多指标,这样还可以节省资金。运用本平台处理了结核杆菌不同临床分型的人类巨噬细胞寡核苷酸微阵列数据,即潜伏期、结核病、结核性脑膜炎进行分析,为识别结核杆菌的敏感基因提供了线索。运用本平台还对不同条件下用异烟肼处理结核分枝杆菌的效果进行处理和分析,例如低氧条件和敲除katG基因的条件所获得的相关cDNA微阵列数据,发现用异烟肼处理的对数生长期调节的基因将不会在休眠期模型中被差异调节;并且在细胞的低代谢状态,即休眠期,被差异调节的基因总数将减少。这些应用研究与国际上的一些报道得到的结论有一致性,验证了平台的有效性,并为结核杆菌的进一步研究提供了思路。平台还有许多不足之处:微阵列数据分析有很多的软件包和算法,本文只整合了R语言和Bioconductor的部分软件包,尚需要对平台的功能做进一步的扩充和完善。本平台编程目前还未采用并行计算技术,所以当算法本身比较耗时并且数据量又较大时,服务器无法达到最优运算速度,因此下一步应该对部分耗时算法和软件使用并行计算技术进行优化处理。随着高通量数据的大量产出与发布,本课题的研究工作能为从事微阵列数据分析的生物学家提供方便,辅助他们使用寡核苷酸微阵列数据、cDNA微阵列数据、组织微阵列数据或其它芯片数据,实现不同目的的数据分析工作。此外本课题的工作对相关生物信息学平台的设计与构建研究也有一定的参考价值。

全文目录


摘要  3-7
ABSTRACT  7-12
第一章 前言  12-20
  1.1 研究背景  12-13
  1.2 微阵列的应用领域  13-15
  1.3 生物信息学与微阵列的数据挖掘  15-20
    1.3.1 微阵列的数据挖掘  15-17
    1.3.2 R语言Bioconductor简介  17-20
第二章 微阵列数据处理的研究  20-29
  2.1 微阵列数据处理基础  20-22
    2.1.1 预处理  20-21
    2.1.2 生物注释及可视化  21
    2.1.3 统计分析  21-22
  2.2 微阵列数据处理工具  22-24
  2.3 微阵列数据网络服务资源  24-27
  2.4 微阵列数据处理平台设计的意义  27-29
第三章 微阵列数据处理平台的设计与实现  29-44
  3.1 总体设计  29-31
    3.1.1 基本构架  29-30
    3.1.2 平台运行环境与开发工具  30-31
  3.2 平台的功能  31-40
    3.2.1 寡核苷酸微阵列的处理与分析  32-34
    3.2.2 cDNA微阵列的处理与分析  34
    3.2.3 组织微阵列的处理与分析  34-40
  3.3 程序设计  40-43
    3.3.1 用户页面制作  40
    3.3.2 数据处理流程  40-43
  3.4 小结  43-44
第四章 微阵列数据处理平台的应用研究  44-54
  4.1 三个分型的TB敏感性基因的分析  44-50
  4.2 不同条件下用异烟肼处理TB效果的分析  50-54
第五章 总结和展望  54-56
参考文献  56-61
论文附件清单  61-62
攻读硕士期间发表的论著  62-63
致谢  63-65
统计学证明  65

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. 文学语言的模糊修辞研究,H05
  3. 布依语—英语语音对比研究,H319
  4. 统计机器翻译中结构转换技术的研究,TP391.2
  5. BioLab面向生物计算服务的网格系统,TP399-C8
  6. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  7. 词义消歧语料库自动获取方法研究,TP391.1
  8. 飞行模拟中飞行管理计算机系统CDU组件设计与仿真,TP391.9
  9. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  10. 东莞镇区初中学生作文语言现状调查及对策研究,G633.3
  11. 维特根斯坦“语言游戏说”新探,B521
  12. 军队后勤物资管理系统设计与实现,TP311.52
  13. 高温蛋白酶Pgsey及解旋酶Htc16特征的初步研究,Q814
  14. 网络语言影响职校学生语用情况的调查及研究,G715
  15. 支架式教学策略在小学语文教学中的运用研究,G623.2
  16. 对初中数学课堂学习即时性评价的认识与探索,G633.6
  17. 穗港中文报纸新闻标题语言比较研究,G213
  18. 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
  19. 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
  20. 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
  21. 黑尔的普遍规定主义思想研究,B82-09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com