学位论文 > 优秀研究生学位论文题录展示
基于改进K-means聚类的系统发育谱方法在基因功能注释中的应用
作 者: 孙平平
导 师: 马志强
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 系统发育谱 基因功能注释 改进K-means聚类 KEGG数据库
分类号: TP399-C8
类 型: 硕士论文
年 份: 2008年
下 载: 110次
引 用: 1次
阅 读: 论文下载
内容摘要
随着后基因组时代的到来,生物信息学的研究重心已经从序列的测序转移到对已测序的全基因组进行功能注释。随着大规模测序工具的高速发展,大通量的全基因组得到测序。仅仅依靠传统的实验方法来对这些新测序的数据进行功能分析已经远远不能满足当前的要求。因此,如何研究出基于计算的功能注释方法以代替传统的实验方法来预测这些海量数据背后隐藏的生物学功能,已经刻不容缓的成为当前生物信息学的一个重要研究课题。目前,基于计算的基因功能注释方法主要分为两大类:基于同源性的注释方法和基于非同源性的注释方法。系统发育谱方法是基于非同源性方法中常用的一种。本文通过在现有系统发育谱方法中对参照物种的选择方式进行分析,采用了构造基于权重的系统发育谱的思想,从而在保障有效的反映基因间的进化信息的同时,避免了传统的参照物种选择方法所带来的巨大的工作量。此外,本文对经典K均值聚类算法进行改进,并将改进后的聚类算法应用到对基因系统发育谱的相似性分析中去。实验结果证明,基于权值的系统发育谱的构建以及改进的聚类算法的应用能够有效的提高算法的整体性能。文章最后通过KEGG数据库做了进一步的验证,结果证明了本文的改进是行之有效的。
|
全文目录
摘要 4-5 Abstract 5-8 引言 8-9 第一章 绪论 9-13 1.1 生物信息学 9-10 1.2 课题背景 10 1.3 国内外研究现状 10-11 1.4 本文的主要研究工作 11-12 1.5 本章小结 12-13 第二章 系统发育谱法 13-20 2.1 引言 13 2.2 基本原理 13-18 2.2.1 参照基因组的选取 13-14 2.2.2 系统发育谱的构造 14-15 2.2.3 谱的相似性分析 15-18 2.3 基于权重的系统发育谱 18-19 2.4 本章小结 19-20 第三章 K-MEANS 聚类算法研究 20-25 3.1 引言 20 3.2 经典K-MEANS 聚类介绍 20-22 3.2.1 K-means 聚类的基本原理 20-21 3.2.2 K-means 聚类的优缺点 21-22 3.3 改进的K-MEANS 聚类算法 22-24 3.3.1 改进的K-means 聚类算法介绍 22-23 3.3.2 改进的K-means 算法性能分析 23-24 3.4 本章小结 24-25 第四章 基于改进K-MEANS 聚类的系统发育谱注释基因功能方法 25-30 4.1 引言 25 4.2 基因功能注释计算方法简介 25-27 4.2.1 基因功能注释的同源性方法 25-26 4.2.2 基因功能注释的非同源性方法 26-27 4.3 基于改进K-MEANS 聚类的系统发育谱注释基因功能算法 27-29 4.3.1 算法介绍 27-28 4.3.2 算法流程图 28 4.3.3 算法理论分析 28-29 4.4 本章小结 29-30 第五章 算法实现与结果分析 30-37 5.1 引言 30 5.2 算法实现 30-32 5.2.1 数据来源 30-31 5.2.2 实验环境 31 5.2.3 实现算法的参数 31-32 5.3 实验结果与分析 32-36 5.3.1 实验结果 32-35 5.3.2 基于 KEGG 的结果分析 35-36 5.4 本章小结 36-37 总结与展望 37-38 致谢 38-39 参考文献 39-41 发表论文和参与科研情况 41
|
相似论文
- 对于系统发育谱法聚类算法的改进,TP311.13
- 改进的系统发育谱方法在蛋白质功能预测中的应用,Q51
- 蛋白质功能预测的非同源性计算方法研究,TP391.41
- 嗜热微生物的基因组分析,Q93
- 数据挖掘技术在文本分类和生物信息学中的应用,TP391.1
- BioLab面向生物计算服务的网格系统,TP399-C8
- DNA自组装模型在组合优化问题中的应用研究,TP399-C8
- 基于XML电子病历数据存储与转换的研究,TP399-C8
- 个人基因组数据管理研究,TP399-C8
- 虚拟牙齿矫正中牙龈变形的计算机模拟方法研究,TP399-C8
- 基于基因本体(GO)的基因语义相似性度量方法的研究及应用,TP399-C8
- 单体型组装问题参数化建模及算法研究,TP399-C8
- 基于网络节点拓扑参数的关键蛋白质识别研究,TP399-C8
- 遗传多态性检测中组合优化问题的研究,TP399-C8
- 乳腺癌普查医学网格研究,TP399-C8
- 生物子序列频数分布与肿瘤亚型分类模型研究,TP399-C8
- 外电场下神经元的分岔研究,TP399-C8
- 仿生计算在生物信息学中的应用,TP399-C8
- Structural Modeling and Characterization of Protein Interaction Network,TP399-C8
- 面向蛋白质结构预测的计算生物学技术研究,TP399-C8
- 具有脉冲效应分布参数系统及应用研究,TP399-C8
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 在其他方面的应用
© 2012 www.xueweilunwen.com
|