学位论文 > 优秀研究生学位论文题录展示
基于SELDI质谱的生物标志辨识算法研究
作 者: 王源
导 师: 姚莉秀
学 校: 上海交通大学
专 业: 模式识别与智能系统
关键词: 数据挖掘 SELDI质谱 生物标志 reversible jump MCMC GA-LFE 蛋白质相互作用网络
分类号: Q789
类 型: 硕士论文
年 份: 2009年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
后基因组时代使得从更深层次的角度上研究基因以及细胞功能成为可能。蛋白质组学能够在蛋白质表达的层面上深入研究基因以及细胞功能。通过蛋白质组研究,大量与疾病有关的蛋白质标志物被发现并用于医疗实践。表面增强激光解析及电离飞行时间(SELDI)质谱是一种检测蛋白质的重要手段。利用SELDI质谱人们已经成功找到了某些癌症的生物标志,给生物标志的临床医学应用带来希望。高通量质谱数据的处理给生物信息学带来了前所未有的挑战。随着质谱检测技术的不断发展,需要提出相应的生物标志辨识算法。本文主要工作包括:1.对SELDI质谱预处理算法的研究准确从SELDI质谱数据中确定谱峰特征是基于SELDI质谱数据检测生物标志这一研究问题中最关键的一个步骤。本文提出了一个全新的混合模型对SELDI质谱数据进行建模。利用贝叶斯定理估计混合模型中的参数,并利用马尔可夫蒙特卡罗方法计算后验概率。通过利用一个可逆转的马尔可夫蒙特卡罗方法,新算法可以自动估计出质谱中谱峰的相应参数。与以往的质谱谱峰提取方法相比,本文中的算法利用一个整体化的模型,不需要将质谱数据预处理工作分割成为子步骤来进行,减少了预处理中引入的误差。同时,本文中提出的质谱数据预处理算法不需要预先制定降噪参数,可以自动选择最优降噪模型以从质谱数据中区分谱峰信息与噪音。通过模拟质谱数据与真实质谱数据上的实验结果显示,本文中提出的质谱谱峰检测算法可以在保持高灵敏度的前提下大大降低检测结果的错误率。2.对生物标志特征选择算法问题的研究传统利用单个生物标志进行疾病预测与诊断的效果并不是很好,基于多个生物标志对疾病进行预测与诊断是目前生物标志特征选择算法研究的发展方向。然而传统的特征选择算法例如遗传算法在待选特征维数很多,而目标特征维数很少的情况下,受到搜索空间能力的限制很容易陷入局部最小,得不到全局最优解。本文提出了一种基于局部递归搜索的改进遗传算法(GA-LFE)来选择生物标志。新算法利用局部递归搜索,通过信息论中选择生物标志冗余性与相关性角度出发,大大降低了传统特征算法的搜索空间,提高了搜索的速度。实验结果显示,在利用支持向量机的情况下,相比目前其他特征选择方法,局部递归搜索的遗传算法取得了最好的分类预测效果。3.对基于蛋白质相互作用网络知识选择生物标志问题的研究基于子网络的生物标志选择是目前生物标识特征选择问题的研究热点。我们利用蛋白质相互作用网络作为先验知识信息,从质谱数据中寻找更可靠,更具有生物表达含义的生物标志。本文中采用的整体网络评价分数模型,克服以往模型中将蛋白质相互作用网络中每个节点的生物实验数据表达作为相互独立的变量进行建模的局限性,率先将蛋白质网络结构建模与生物实验数据建模统一考虑,利用一个整体模型来同时对两者信息数据进行建模。对比以往的评价分数模型,新提出的评价分数模型可以更精确的找到子网络生物标志。实验结果显示,应用新算法所选择的生物标志可以取得更好的预测分类准确率。
|
全文目录
摘要 5-8 ABSTRACT 8-14 第一章 课题的研究意义及背景 14-21 1.1 引言 14-15 1.2 数据挖掘算法 15-16 1.2.1 数据挖掘算法的概念 15 1.2.2 数据挖掘算法的方法 15-16 1.2.3 数据挖掘算法的应用 16 1.3 基于质谱数据挖掘生物标志 16-21 1.3.1 蛋白质组学的概念 16-17 1.3.2 SELDI 质谱技术简介 17-19 1.3.3 基于SELDI 质谱的生物标志发现 19-21 第二章 SELDI 质谱预处理算法的研究 21-36 2.1 SELDI 质谱数据处理的难点 21-22 2.2 现有SELDI 质谱预处理研究进展 22 2.3 基于RJMCMC 方法的SELDI 质谱预处理算法研究 22-28 2.3.1 SELDI 质谱的混合模型建立 22-24 2.3.2 贝叶斯框架下的rjMCMC 算法 24-26 2.3.3 混合模型的高斯核参数估计 26-27 2.3.4 算法实现与讨论 27-28 2.4 实验验证与结果 28-34 2.4.1 模拟数据测试 28-32 2.4.2 实际SELDI 质谱数据集的测试与比较 32-34 2.5 小结 34-36 第三章 基于遗传算法的生物标志特征选择算法的研究 36-46 3.1 生物标志选择的问题与意义 36-37 3.2 传统基于遗传算法的特征选择 37-38 3.3 利用局部浮动窗递归搜索增强的遗传算法进行生物标志选择 38-41 3.4 实验验证与结果 41-44 3.4.1 实验数据集与参数设置 41 3.4.2 试验结果 41-44 3.5 小结 44-46 第四章 基于蛋白质相互作用网络的生物标志特征选择算法的研究 46-60 4.1 蛋白质相互作用网络的意义 46-47 4.2 基于蛋白质相互作用网络的生物标志选择的研究进展与难点 47-49 4.3 基于整体网络评分的生物标志特征选择算法 49-53 4.3.1 质谱数据与蛋白质相互作用网络的整合 49-50 4.3.2 基于整体网络打分的生物标志特征选择算法 50-53 4.4 实验验证与结果 53-58 4.4.1 模拟数据测试 53-56 4.4.2 实际SELDI 质谱数据集的测试与比较 56-58 4.5 小结 58-60 第五章 总结与展望 60-64 5.1 本文研究总结 60-61 5.1.1 SELDI 质谱预处理算法的研究 60 5.1.2 基于遗传算法的生物标志特征选择算法的研究 60-61 5.1.3 基于蛋白质相互作用网络的生物标志特征选择算法的研究 61 5.2 展望 61-64 5.2.1 对SELDI 质谱预处理算法研究的展望 61-62 5.2.2 对基于遗传算法的生物标志特征选择算法研究的展望 62 5.2.3 对基于蛋白质相互作用网络的生物标志特征选择算法研究的展望 62-64 参考文献 64-67 致谢 67-68 攻读硕士期间发表的论文 68
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 乙型肝炎病毒相关性肾炎尿液蛋白质组学的研究分析,R692.3
- 基于数据挖掘的税务稽查选案研究,F812.42
- 哈拉哈塘凹陷海相油气地球化学研究,P618.13
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 低砷饮水暴露对心血管系统的影响及膳食营养因素作用的研究,R151
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
中图分类: > 生物科学 > 分子生物学 > 基因工程(遗传工程) > 基因工程的应用
© 2012 www.xueweilunwen.com
|