学位论文 > 优秀研究生学位论文题录展示

Bicluster数据分析软件设计与实现

作 者: 黄安杰
导 师: 冯剑琳
学 校: 中山大学
专 业: 软件工程
关键词: 数据挖掘 biclustering算法 基因表达水平 索引技术
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着生物学中基因芯片等技术的发展,人们获得了大量的基因在不同实验条件下的表达水平数据,这些数据通常会以矩阵的形式进行组织,并将其称之为microarray data。越来越多的人开始关注采用计算机的方法去处理这些数据,以找到这些数据中的一些内在关联,如哪些基因会在一组实验条件下出现共同表达的现象,又或者是一组基因在哪些实验条件下的表达水平变化是一致的等等。传统的聚类算法,通常只能对数据的一个维度进行聚类,这使得基因表达水平数据中很多共同表达的关系无法被发现。近年来,越来越多的人开始研究能够在数据的行和列两个维度同时进行聚类的方法,以获取数据中的局部模式,即找到数据矩阵空间中的子空间(subspace或submatrix)。这类子空间也常被称为bicluster,用于挖掘这类子空间的算法被称之为biclustering算法[1]。除此之外,也有人称之为direct clustering、block clustering、coclustering以及subspace clustering算法等[2]。本文设计并开发了一款bicluster数据分析软件——CohAT,可用于分析数据中的相关联模式,尤其是可用于对基因表达水平数据的分析,计算数据中的bicluster。更重要的是还实现了对大规模数量的bicluster进行管理和快速查找的功能,使得对biclustering算法不是非常熟悉的用户,依然能够非常便捷地运用biclustering算法对基因表达水平数据进行分析,尤其是可以很方便地根据一组已知的基因或实验条件计算或查找与之相关联的bicluster。本文对biclustering算法进行了学习总结,尤其是深入学习和研究了RAP和ET-Bicluster两个算法。RAP算法具有可直接对实数值域的基因表达水平数据进行分析;可对同时包含正、负表达的基因数据进行求解;可求解出所有满足条件的bicluster的特点。另外,ET-Bicluster算法还可以对具有噪声的数据进行处理。因此,本文修改实现了这两个算法作为软件分析基因表达水平数据的核心算法。并针对用户可能只关心包含某些基因或某些实验条件的相关联模式的情况,对算法进行了计算优化,可极大地提高算法计算的效率。由于RAP和ET-Bicluster算法可以求解出所有满足条件的bicluster,这也导致算法可能求解出大量的bicluster。这就需要一个有效的方法对这些bicluster进行组织和管理,并实现快速地查找。本文着重研究了对bicluster建立索引的技术,通过建立位图(Bitmap)和前缀树索引,对求得的大规模数量的bicluster进行了有效地管理,并实现了快速查找和筛选的功能。同时本文还针对连索引文件也太大无法一次全部读入内存的情况进行了优化处理。最后本文还研究了对索引进行压缩存储的方法,在尽量减少额外存储空间的同时,也可以加快索引文件的读写。最后,本文对其中一个使用得最为广泛的生物基因数据库进行了学习了解。实现了利用已有的基因数据,对求解的bicluster进行假设检验分析,计算相应的P-value[3]的功能,并且实现了Bonferroni和FDR两种多假设检验修正的方法。同时,为了使用户更方便直观地查看基因数据库中的相关信息,实现了利用有向无环图的方式可视化地展示Gene Ontology[4]的相关内容。

全文目录


摘要  3-5ABSTRACT  5-9第1章 绪论  9-20  1.1 研究背景和意义  9-11  1.2 相关工作  11-17  1.3 本文研究内容  17-19  1.4 本文组织结构  19-20第2章 RAP 和ET-Bicluster 算法  20-25  2.1 RAP 算法介绍  20-22  2.2 RAP 算法的计算优化  22-23  2.3 ET-Bicluster 算法介绍  23-24  2.4 本章小结  24-25第3章 Bicluster 管理技术研究  25-42  3.1 位图(Bitmap)索引  27-28  3.2 位图索引的优化和压缩  28-33  3.3 前缀树索引  33  3.4 前缀树索引的优化和压缩  33-38  3.5 位图索引和前缀树索引的性能对比  38-40  3.6 对基因和实验条件同时建立索引  40-41  3.7 本章小结  41-42第4章 Biclustering 结果分析  42-50  4.1 相关联模式的一致性分析  42-43  4.2 生物重要性分析  43-46  4.3 基因数据库介绍  46-49  4.4 本章小结  49-50第5章 Bicluster 数据分析软件的设计  50-68  5.1 需求分析  50-59  5.2 总体设计  59-61  5.3 模块设计  61-67  5.4 本章小结  67-68第6章 Bicluster 数据分析软件的实现和应用  68-77  6.1 开发工具及运行环境介绍  68-69  6.2 Biclustering 算法实现  69  6.3 Bicluster 管理技术的实现  69-73  6.4 生物重要性分析的实现  73-76  6.5 本章小结  76-77第7章 总结与展望  77-80  7.1 全文总结  77-78  7.2 进一步的研究工作  78-80参考文献  80-83

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. 基于变异粒子群的聚类算法研究,TP18
  5. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  6. 基于遗传算法和粗糙集的聚类算法研究,TP18
  7. 基于数据挖掘的税务稽查选案研究,F812.42
  8. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  9. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  10. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  11. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  12. 教学质量评估数据挖掘系统设计与开发,TP311.13
  13. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  14. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  15. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  16. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  17. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  18. 高校毕业生就业状况监测系统研究,G647.38
  19. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  20. 基于数据挖掘的信用卡客户激活与响应度研究,F832.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com