学位论文 > 优秀研究生学位论文题录展示

基于粒子对和极值优化的基因聚类混合算法研究

作 者: 禤浚波
导 师: 张超英
学 校: 广西师范大学
专 业: 计算机软件与理论
关键词: 生物信息学 基因聚类 粒子对算法 极值优化算法 混合算法
分类号: TP301.6
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着人类基因组计划的完成,生命科学的研究进入到后基因组时代,研究的重点已变为确定每条基因在生物体中的功能以及基因之间相互作用和调控的关系。作为后基因组时代功能基因组研究最基本的实验手段,基因芯片一次实验可以同时观测成千上万条基因在不同实验条件下的表达情况,从而产生了大量蕴含着基因活动信息的基因表达数据。如何分析和处理这些基因表达数据,以提取出对人类有意义的生物、医学信息,已成为后基因组时代人们关注和研究的热点。目前,聚类方法是对基因表达数据进行分析和处理的主要计算技术之一。通过对基因表达数据进行聚类,能够将表达模式相似或相同的基因归纳成类,有助于对基因功能、基因调控、细胞过程、细胞亚型等进行综合的研究,在补充未知基因的生物学功能注释、临床诊断治疗等方面具有重要的现实意义。因此,已有大量国内外学者提出了应用到基因表达数据聚类分析中的各种聚类算法。作为一种较新颖的基因聚类算法,粒子对算法(PPO)在一些基因表达数据集中获得了较好的聚类效果,但也存在着一些有待解决的问题。本文就是围绕着如何进一步提高PPO算法的聚类效果开展研究,主要做的相关研究工作如下:(1)对生物信息学的相关基础知识进行了简单介绍,接着对基因表达数据的获得、表示、预处理、聚类分析原理和聚类结果评价进行了较为详细的分析,最后获取了本文进行聚类分析实验所用到的两组基因表达数据集。(2)对K-means、层次聚类这两种传统的基因聚类算法的原理进行了简单分析,接着介绍了标准粒子群优化算法(PSO)的原理,并分析了粒子群聚类算法的原理和优缺点,最后对基本PPO算法的原理、聚类流程和特点进行了较为详细的阐述。(3)对基本PPO算法进行了较为深入的研究,分析了PPO算法存在着有待解决的3个问题,并相应提出了3种改进思路:用K-means快速聚类结果初始化一个粒子、为初始粒子对之间引入一种最优信息共享策略、根据粒子对的统计信息对属于不同类别的粒子采用不同的速度进化公式,由此得到了一种新的改进粒子对算法ImPPO。为验证改进思路和改进算法ImPPO的有效性,采用了三个基因表达数据集进行聚类分析实验。实验结果表明,与K-means、基本PPO算法相比,提出的改进思路和改进算法ImPPO在一些基因表达数据集中获得了较好的聚类效果,并且再一次说明了对于不同的聚类算法,甚至同一聚类算法使用不同的参数,应用到同一基因表达数据集中可能会得到不同的聚类结果。(4)在对基本极值优化算法(EO)的原理、特点进行分析的基础上,结合PPO和EO算法的优点,提出了一种新的基因聚类混合算法PPO-EO。混合算法PPO-EO在精英粒子对的迭代过程中根据一定的迭代次数将EO算法引入到PPO算法中,一方面利用EO算法强大的局部搜索能力的优点克服PPO算法后期可能过早陷入局部最优的缺点,另一方面利用PPO算法能够保证全局收敛的优点克服EO算法不能保证收敛的缺点,发挥二者的优势完成基因聚类,以提高基因聚类结果的精度。为评价混合算法的聚类效果,通过采用另外三个基因表达数据集进行了聚类分析实验。实验结果表明,混合算法PPO-EO在三个聚类评价指标均方差函数、类内紧致性和类间分离度方面获得了比K-means、PPO算法更好的聚类结果精度。

全文目录


摘要  3-5
Abstract  5-9
第1章 绪论  9-13
  1.1 本文的研究背景和意义  9-10
  1.2 基因表达数据聚类分析的研究现状  10-12
  1.3 本文的章节结构安排  12
  1.4 本章小结  12-13
第2章 生物信息学与基因表达数据聚类分析  13-21
  2.1 生物信息学概述  13-15
    2.1.1 生物信息学的产生和发展  13
    2.1.2 生物信息学的基础  13-14
    2.1.3 生物信息学的研究对象  14-15
    2.1.4 生物信息数据库  15
    2.1.5 生物信息学的研究意义  15
  2.2 基因表达数据的获得与表示  15-18
    2.2.1 基因芯片技术  15-16
    2.2.2 基因表达数据表示  16-17
    2.2.3 基因表达数据的预处理分析  17-18
  2.3 基因表达数据聚类分析  18-20
    2.3.1 聚类分析概述  18
    2.3.2 相似性度量准则  18-19
    2.3.3 基因聚类结果的评价  19-20
  2.4 基因表达数据集  20
  2.5 本章小结  20-21
第3章 基因表达数据聚类算法  21-31
  3.1 K-means算法  21
  3.2 层次聚类算法  21-22
  3.3 粒子群聚类算法  22-25
    3.3.1 标准粒子群算法  22-25
    3.3.2 粒子群聚类算法  25
  3.4 粒子对算法  25-30
    3.4.1 基本原理  25-26
    3.4.2 粒子结构和进化公式  26-27
    3.4.3 与传统粒子群算法的差异  27-28
    3.4.4 粒子对算法聚类分析  28-29
    3.4.5 聚类中心的更新过程  29-30
  3.5 本章小结  30-31
第4章 基本极值优化算法的原理  31-34
  4.1 极值优化算法的基本原理  31
  4.2 基本极值优化算法的实现  31-33
  4.3 极值优化算法的特点  33
  4.4 本章小结  33-34
第5章 基于改进粒子对算法的基因聚类研究  34-49
  5.1 基本粒子对算法存在的问题  34-35
  5.2 改进的粒子对算法  35-41
  5.3 实验比较  41-46
    5.3.1 实验数据及算法参数设置  41-42
    5.3.2 实验结果比较  42-46
      5.3.2.1 初始粒子解质量比较  42-43
      5.3.2.2 精英粒子解质量比较  43-44
      5.3.2.3 改进算法的聚类结果比较  44-46
  5.4 实验结果分析及结论  46-48
  5.5 本章小结  48-49
第6章 基于粒子对和极值优化的基因聚类混合算法  49-59
  6.1 新的混合算法PPO-EO  49-53
  6.2 混合算法PPO-EO的流程图  53-54
  6.3 实验比较  54-57
    6.3.1 实验数据及算法参数设置  54
    6.3.2 实验结果比较  54-57
  6.4 实验结果分析及结论  57-58
  6.5 本章小结  58-59
第7章 本文总结与展望  59-61
  7.1 本文的总结  59
  7.2 研究展望  59-61
参考文献  61-66
攻读硕士期间的科研情况  66-67
致谢  67-68

相似论文

  1. 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
  2. 基于遗传—牛顿算法的公交优化调度,TP18
  3. 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
  4. 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
  5. 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
  6. 两个玉米转录因子ZmC4HC3和ZmNAC的克隆与表达分析,S513
  7. 家蚕HSP基因的表达调控研究,S881.2
  8. 电力系统无功优化的混合算法研究,TM714.3
  9. 上海近郊某地区犬Torque Teno virus感染率调查及全基因组序列分析,S858.292
  10. 人工萤火虫群优化算法改进及应用研究,TP18
  11. 萤火虫群算法的改进及其应用,TP301.6
  12. 蛋白质-DNA结构模型比较及其在转录因子结合位点预测中的应用,Q51
  13. 基于粒子群优化算法的短期电力负荷预测,TM715
  14. 新疆梨种质资源分子标记及自交不亲和基因克隆,S661.2
  15. CIMMYT玉米种质Ent17大斑病抗性基因解析及Ht1生物信息学分析,S435.11
  16. 肠三叶因子受体的分离、鉴定及其生物信息学分析,Q51
  17. 基于混合网格的高阶间断Galerkin/有限体积混合算法的研究,O35
  18. 内毒素休克小鼠肝脏线粒体差异蛋白质组的鉴定,R459.7
  19. Tec激酶区作用蛋白RAI 16的功能和分化调控机理初步研究,R73-3
  20. 低温胁迫下柑橘正反向差减cDNA文库的构建及生物信息学分析,Q943.2
  21. 唇形亚纲植物DFR基因的生物信息学分析与分子进化研究,Q943

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com