学位论文 > 优秀研究生学位论文题录展示
三维微阵列频繁闭模式挖掘算法的研究与实现
作 者: 许光宇
导 师: 王国仁
学 校: 东北大学
专 业: 计算机系统结构
关键词: 生物信息学 微阵列 三维频繁闭模式 MFCC算法 MFCC+算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 15次
引 用: 0次
阅 读: 论文下载
内容摘要
人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。随着人类基因组计划的顺利实施,生物实验技术也在日新月异地进步,微阵列芯片技术正是其中最有代表性的一种。目前,微阵列芯片技术已经可以同时测量大量基因在多个样本上、在一系列时间点上的表达值,从而得到三维的微阵列数据集。实验技术的进步也带动了对实验结果进行信息挖掘技术的进步,三维频繁闭模式挖掘技术就是在这种情况下产生的。然而三维频繁闭模式的挖掘还是崭新的概念,对其挖掘技术的研究还处在起步的阶段。本文首先提出了一种新的三维频繁闭模式挖掘算法MFCC。MFCC算法采用降维的思想,首先将三维数据集切片为若干个二维数据集,并应用适当的二维频繁闭模式挖掘算法进行处理;再通过对二维切片上的结果进行相交,并结合有效的削减规则,快速得到所有三维频繁闭模式。MFCC算法的优点在于高效的降维技术既可以降低数据集的维数,从而能够利用已有的二维频繁闭模式挖掘算法,又不会产生大量的二维切片。为了进一步提高算法的性能,本文又提出了改进的算法MFCC+算法。MFCC+算法采用与MFCC算法相同的降维技术,在保留了MFCC算法优点的前提下通过使用高效的削减规则,在算法执行过程中削减掉所有的不封闭的模式,从而避免了结果的封闭性检验。实验结果表明,MFCC+算法的性能改进效果显著,改进后的算法性能优于以往的三维频繁闭模式挖掘算法。本文首先介绍相关的背景知识及以往的研究工作;然后依次提出了MFCC算法和MFCC+算法,并对算法的正确性进行了证明;最后通过实验对算法的性能进行了测试并作出相应的分析。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第一章 绪论 9-15 1.1 基因芯片技术与微阵列数据集 9-12 1.1.1 基因芯片技术概述 9-10 1.1.2 微阵列技术及其应用 10-12 1.2 数据挖掘技术在微阵列数据分析中的应用 12-14 1.2.1 微阵列数据分析中的数据挖掘技术 12-13 1.2.2 频繁模式挖掘技术在微阵列数据分析中的应用 13 1.2.3 频繁模式挖掘技术的最新进展以及面临的挑战 13-14 1.3 论文组织结构 14-15 第二章 相关研究工作 15-31 2.1 频繁模式挖掘技术概述 15-19 2.1.1 基本概念 15-16 2.1.2 从频繁模式到频繁闭模式 16-18 2.1.3 从二维频繁闭模式到三维频繁闭模式 18-19 2.2 二维频繁闭模式挖掘算法 19-29 2.2.1 MAFIA算法 19-21 2.2.2 CLOSET算法 21-23 2.2.3 CARPENTER算法 23-26 2.2.4 D-Miner算法 26-29 2.3 研究前景展望以及面临的挑战 29-30 2.4 本章小结 30-31 第三章 三维频繁闭模式挖掘算法 31-51 3.1 研究现状及存在的问题 31-40 3.1.1 三维频繁闭模式的基本概念 31-32 3.1.2 RSM算法 32-34 3.1.3 CubeMiner算法 34-39 3.1.4 现有三维频繁闭模式挖掘算法存在的不足 39-40 3.2 MFCC算法 40-48 3.2.1 相关术语及算法框架的提出 41-42 3.2.2 二维切片挖掘 42-43 3.2.3 三维频繁闭模式生成 43-47 3.2.4 削减规则 47-48 3.3 算法正确性证明 48-50 3.4 本章小结 50-51 第四章 改进的挖掘算法MFCC+ 51-67 4.1 MFCC算法的不足 51 4.2 MFCC+算法框架的提出以及做出的改进 51-56 4.3 MFCC+算法的削减规则 56-63 4.3.1 削减规则的提出 56-58 4.3.2 削减规则的正确性证明 58-62 4.3.3 削减规则的实现技术 62-63 4.4 算法正确性证明 63-65 4.5 本章小结 65-67 第五章 实验及结果分析 67-75 5.1 实验环境及实验数据集 67-68 5.2 改进算法性能测试 68-69 5.3 改变阈值参数测试 69-71 5.4 可扩展性测试 71-74 5.4.1 改变数据集规模测试 71-72 5.4.2 改变数据集密度测试 72-74 5.5 本章小结 74-75 第六章 结论 75-77 6.1 本文工作总结 75 6.2 今后工作展望 75-77 参考文献 77-81 致谢 81-83 攻读硕士期间发表的论文 83
|
相似论文
- BioLab面向生物计算服务的网格系统,TP399-C8
- 南极冰藻GPx、GST和SAHH基因的克隆、定量分析及原核表达载体的构建,Q943.2
- 高温蛋白酶Pgsey及解旋酶Htc16特征的初步研究,Q814
- 红曲霉洛伐他汀生物合成相关基因克隆与分析,TQ927
- 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
- 小麦基因电子表达分析平台的构建及相对于水稻的小麦特异基因的鉴定,S512.1
- 两个玉米转录因子ZmC4HC3和ZmNAC的克隆与表达分析,S513
- 水稻Rho家族OsRacD及其5种潜在互作蛋白的生物信息学分析,S511
- 斯氏按蚊感染约氏疟原虫后24小时差异表达基因的筛选与分析,R531.3
- 家蚕HSP基因的表达调控研究,S881.2
- 电离辐射诱发microRNA表达改变及其对辐射损伤调控机制,R144
- 上海近郊某地区犬Torque Teno virus感染率调查及全基因组序列分析,S858.292
- 蛋白质-DNA结构模型比较及其在转录因子结合位点预测中的应用,Q51
- 生物途径数字化策略及其在共生固氮网络数据库中的实现,Q811.4
- 单分子水平上的量子点荧光性质和生物芯片研究,O471.1
- 面向DAG数据依赖型应用系统研究与实现,TP311.1
- 桉树木质素合成途径两个关键基因的克隆与功能研究,S792.39
- 新疆梨种质资源分子标记及自交不亲和基因克隆,S661.2
- CIMMYT玉米种质Ent17大斑病抗性基因解析及Ht1生物信息学分析,S435.11
- 癌症差异表达基因的似然比—置换检验法,R730.2
- 微阵列比较基因组杂交技术在诊断和产前诊断不平衡染色体畸变中的应用,R714.55
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|