学位论文 > 优秀研究生学位论文题录展示
核学习方法及其在生物序列分析中的应用
作 者: 杨文云
导 师: 吕宝粮
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 字符串核 结构化预测 支持向量机 蛋白质序列分析 亚细胞定位
分类号: Q7
类 型: 硕士论文
年 份: 2009年
下 载: 87次
引 用: 0次
阅 读: 论文下载
内容摘要
蛋白质序列可以按照功能,结构,亚细胞位置等分成不同的类别。在计算生物学中的一个很重要的问题是如何自动地进行这个分类过程。我们从两个角度使用核方法来解决这个问题:首先建立新的字符串核,其次开发新的基于核的学习算法。首先,我们在核方法的范畴内介绍一个对蛋白质序列相似性建模的框架。在这个框架下,我们可以更灵活的构造不同的核函数为支持向量机的输入。现有的字符串核方法都是基于显式的定义从蛋白质序列到向量空间的特征映射。而我们的方法是通过局部核函数构造和核组合的方法来直接建立核函数的。我们提出的框架提供了有生物意义的核函数,因为我们选取有区分能力的k长氨基酸序列和考虑到了错配,BLOSUM62分值,InterPro项和基因本体。我们在关于蛋白质亚细胞定位和远同源性检测的两个不同的数据集上做了实验。实验结果表明使用我们构造的核函数的支持向量机可以取得比现有的基于序列的方法更好的结果。当使用了InterPro和基因本体的先验知识后,我们的方法和其他使用先验知识的方法有相似的性能。其次,我们探索了亚细胞位置之间的依赖关系,并且将这种关系用于支持向量机来进行蛋白质亚细胞定位。传统的预测系统使用了“平面”分类器组合结构,比如说一对其他方法和一对一方法。所以,现有的研究基本上都忽略了亚细胞位置间的依赖关系。和这些方法不同,我们使用了一个层次化结构来组织亚细胞位置并且对它们之间的关系建模。我们提出了四种层次化的预测方法,并且在三个数据集上做了比较实验。试验结果表明三种层次化模型在树损失的评价指标下比传统的“平面”模型有提高。有一种层次化模型在所有评价指标下都比“平面”模型有提高。
|
全文目录
摘要 3-4 ABSTRACT(英文摘要) 4-5 目录 5-7 主要符号对照表 7-8 第一章 绪论 8-14 1.1 引言 8 1.2 核方法研究背景 8-9 1.3 生物序列分析的发展 9-12 1.3.1 蛋白质亚细胞定位研究现状 9-12 1.3.2 蛋白质同源性检测研究现状 12 1.4 论文安排 12-14 第二章 支持向量机 14-21 2.1 引言 14 2.2 最优超平面 14 2.3 线性支持向量机 14-17 2.4 非线性支持向量机和核函数 17-18 2.5 再生核希尔伯特空间和代表定理 18-20 2.6 本章小结 20-21 第三章 字符串核方法 21-31 3.1 引言 21 3.2 谱字符串核和不严格匹配字符串核 21-22 3.3 字符串核框架 22-25 3.3.1 字符串核框架的定义 22-24 3.3.2 字符串核之间的关系 24-25 3.4 建立特征集合 25-27 3.4.1 特征选择方法 25-27 3.4.2 典型的特征集合 27 3.5 快速计算字符串核函数 27-29 3.5.1 含有叶链接的树型数据结构 28 3.5.2 叶节点遍历算法 28-29 3.6 使用先验知识 29-30 3.7 本章小结 30-31 第四章 结构化预测 31-39 4.1 引言 31 4.2 相互依赖的亚细胞位置 31-32 4.2.1 生物学角度 31-32 4.2.2 机器学习角度 32 4.2.3 多根树结构 32 4.3 层次化分类 32-33 4.4 结构化支持向量机 33-36 4.5 多根结构化预测 36-37 4.6 本章小结 37-39 第五章 字符串核方法应用于生物序列实验分析 39-48 5.1 实验设置 39-40 5.2 预测结果 40-45 5.2.1 谱特征集 40-41 5.2.2 约减谱特征集 41-42 5.2.3 混合特征集 42-43 5.2.4 多种字符串核 43-45 5.2.5 使用先验知识 45 5.3 本章小结 45-48 第六章 结构化预测应用于生物序列实验分析 48-57 6.1 实验设置 48-49 6.2 亚细胞位置的层次结构 49-50 6.3 和传统方法的比较 50-56 6.3.1 平面支持向量机和决策树支持向量机 52 6.3.2 多根SVM-Struct的性能 52 6.3.3 位置对位置的比较 52-56 6.4 不同结点SVM的性能差异 56 6.5 本章小结 56-57 第七章 总结与展望 57-59 7.1 本文的主要贡献 57 7.2 进一步的研究工作 57-59 参考文献 59-64 致谢 64-65 个人简历、在学期间的研究成果及发表的论文 65-68 上海交通大学硕士学位论文答辩决议书 68
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 草鱼呼肠孤病毒vp5、vp7基因cDNA的克隆、表达及VP5、VP7蛋白亚细胞定位研究,S941.41
- 小麦黄花叶病毒(WYMV)RNA2编码基因的功能研究,S435.121
- 单细胞中光敏化单态氧的间接成像,Q2-3
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 转录因子在棉纤维起始期的表达特征及三个转录因子基因的克隆与功能初步分析,Q943
- 玉米光周期敏感基因ZmELF4的克隆及功能验证,S513
- 小麦Na~+/H~+逆转运蛋白TaNHX2的功能验证及功能域分析,S512.1
- 基于车载3D加速传感器的路况监测研究,TP274
- 栽培大豆和滩涂野大豆及其杂交后代苗期耐盐性与NHX1基因功能的初步研究,S565.1
中图分类: > 生物科学 > 分子生物学
© 2012 www.xueweilunwen.com
|