学位论文 > 优秀研究生学位论文题录展示
生物基因表达数据中局部线性模式的挖掘
作 者: 吕阳
导 师: 季丽萍
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 数据挖掘 模式挖掘 线性模式
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
表达谱基因芯片技术的发展使得快速准确地同时度量成千上万的基因表达值成为可能,因而如何从海量的基因表达数据中挖掘出有价值的基因表达模式逐渐成为近年来生物信息学研究的热点。模式挖掘可以帮助研究人员分析基因表达数据,寻找其中可能暗藏的基因间相互作用关系,从而有助于人类认识基因和利用基因。国内外现有的模式挖掘方法主要针对简单的同变化趋势模式的挖掘,但是在实际研究中诸如时延模式、变速模式等复杂模式往往更有价值,同时挖掘起来也更加困难。近年有一些新的挖掘复杂模式的方法被提出,但是这些方法有的依赖于相关度计算公式,以致于准确度不高且难以扩展应用;有的算法过于复杂,以致于效率较低。另外,目前已有的方法都将本应属于同一线性模式的数据拆分成若干个子模式,以致于错过了将这些数据整体共同分析从而发现新规律的机会。本课题对模式挖掘方法进行深入研究,以克服目前模式挖掘方法的不足之处。本课题首先详细研究了模式挖掘方法中各种局部模式之间的关系并探讨其数学模型,从这些数学模型出发,重新对模式挖掘中的局部模式进行划分,提出了线性模式的概念。线性模式更符合生物基因数据及其它场合对模式挖掘的要求,可以给研究人员带来更多启发。本课题还深入剖析了基于矩阵变换的模式挖掘算法,探寻算法背后的数学模型,并探讨了基于矩阵变换的方法与导数之间的关系这一新颖的话题。本课题基于对上述算法的研究为线性模式的挖掘提出了一套行之有效的数学模型和其相应算法SDC(Second Derivative Cluster),同时给出了该数学模型理论上的合理性并通过实现算法所对应系统以验证该算法的正确性。本课题的创新之处在于引入了一种更符合研究实际的局部模式划分方法;提出了线性模式的概念;将矩阵变换的思想与导数联系到一起,提出了第一个可以挖掘数据中线性模式的算法。本课题提出的SDC算法不仅可以应用于生物基因数据中的局部线性模式的挖掘,也可以扩展应用到商业信息领域、经济领域等其它领域中。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-18 1.1 课题背景及意义 9-10 1.2 局部模式简介 10-12 1.2.1 全局模式与局部模式 10-11 1.2.2 简单的局部模式 11-12 1.3 国内外研究的现状及分析 12-15 1.3.1 主要的局部模式挖掘算法 12-14 1.3.2 当前研究的不足 14-15 1.4 本文内容及组织 15-18 1.4.1 本文内容 15-16 1.4.2 本文的组织 16-18 第2章 模式挖掘算法简介 18-26 2.1 基于相关度计算公式的算法 18-21 2.1.1 BiCluster 算法 18-19 2.1.2 δCluster 算法 19-20 2.1.3 pCluster 算法 20-21 2.1.4 基于相关度计算公式的算法小结 21 2.2 基于矩阵变换的算法 21-24 2.2.1 DBF 算法 21-22 2.2.2 QHB 算法 22-23 2.2.3 SKB 算法 23-24 2.2.4 基于矩阵变换的算法小结 24 2.3 基于矩阵变换的算法的数学模型 24-25 2.4 本章小结 25-26 第3章 线性模式 26-31 3.1 复杂的局部模式 26-27 3.2 局部模式的数学模型 27-28 3.3 新的局部模式划分方法与线性模式 28-30 3.4 本章小结 30-31 第4章 线性模式挖掘算法SDC 的数学模型和算法 31-42 4.1 SDC 挖掘的模式 31 4.2 SDC 算法的数学模型 31-34 4.2.1 矩阵变换与导数的关系 31-33 4.2.2 SDC 算法的数学模型 33 4.2.3 SDC 算法的正确性 33-34 4.3 SDC 的算法流程 34-41 4.3.1 步骤一:矩阵变换 34-37 4.3.2 步骤二:模式挖掘 37-38 4.3.3 步骤三:数据还原 38-41 4.4 本章小结 41-42 第5章 线性模式挖掘系统SDC 42-49 5.1 SDC 系统介绍 42-43 5.1.1 SDC 系统输入 42 5.1.2 SDC 系统处理过程 42-43 5.1.3 SDC 系统输出 43 5.2 实验结果及分析 43-47 5.2.1 实验参数设置 44 5.2.2 实验结果及分析 44-47 5.3 本章小结 47-49 结论 49-50 参考文献 50-54 攻读硕士学位期间发表的学术论文 54-56 致谢 56
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据挖掘技术的电信客户维系挽留系统分析及应用,TP311.13
- 动态关联规则的研究,TP311.13
- 基于数据挖掘的移动行为预测,TP311.13
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
- 基于核心示例集的属性约简方法研究,O159
- 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
- 监狱警务综合管理系统的设计与实现,TP311.52
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于隐私保护的多步攻击关联方法研究,TP311.13
- Web敏感信息监测优化方法研究,TP393.08
- 面向半导体制造过程中的缺陷数据集成与分析,TN305
- 基于用户行为挖掘的数据库入侵防护机制研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|