学位论文 > 优秀研究生学位论文题录展示

基于丰富特征和多核学习的蛋白质关系抽取

作 者: 冀明辉
导 师: 王健
学 校: 大连理工大学
专 业: 计算机系统结构
关键词: 蛋白质关系抽取 自然语言处理 机器学习 特征 核函数
分类号: Q51
类 型: 硕士论文
年 份: 2011年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着生物医学文献数量的迅速增长,这使得生物医学研究者很难快速地从海量文献中找到需要的信息。因此,如何帮助生物医学工作者快速准确的定位有价值的信息成为生物医学自然语言处理领域的重要研究内容。蛋白质交互作用关系抽取是生物医学文本挖掘领域的子任务,它对蛋白质知识网络的建立、新关系的预测集以及新药的研制等具有重要的意义。目前,统计机器学习的方法被广泛地应用于蛋白质关系抽取的任务中,而统计机器学习方法的一个重要部分就是特征表示,特征表示的好坏往往直接决定系统的最终性能。本文重点研究不同特征对蛋白质关系抽取的影响,并且使用多核学习的方法融合多种不同类型的有效特征进行蛋白质关系抽取。本文首先介绍蛋白质关系抽取的研究背景及研究现状,接下来介绍蛋白质关系抽取的相关知识、支持向量机、句法分析以及不同的评价指标。然后,提出了一种基于丰富特征的蛋白质关系抽取方法,全面发掘句子及其句法结构中的有用特征,不仅使用了词特征,同时也使用了N元词特征、位置特征、特定位置特征、词距离特征,以及两类句法特征,句子距离特征和谓词参数结构特征。在5个公开的语料上评价不同特征对蛋白质关系抽取的影响,结果表明这些特征有助于性能的提高。最后,本文使用多核学习的方法发掘句子及其依存图中有用信息进行蛋白质关系抽取。基于核函数的方法可以根据不同的需要设计不同的核函数,尤其是对于一些结构数据,核函数提供了极大的方便。本文首先定义三个核函数:基于特征的核函数、路径加权子序列核和图核,这三个核函数分别从句子上下文及其依存图中发掘不同层次的信息。然后通过多核学习的方法将这三个核函数按照不同的权值结合起来进行蛋白质关系抽取。多核学习的方法能够结合不同层次的信息,避免丢失重要特征的危险,得到了较好的实验结果,在AImed语料上的实验得到了62.4%F值和87.2%的AUC值。本文从句子上下文环境和句法结构中发掘有效的特征,分别使用了基于特征和基于核函数的统计机器学习方法进行蛋白质关系抽取。方法在5个公开的蛋白质关系抽取语料上进行评估,结果表明,我们的方法具有较好的泛化性能,在5个语料上都取得了较好的实验结果。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-13
  1.1 研究背景  9
  1.2 研究现状  9-11
  1.3 本文的工作  11-12
  1.4 本文的结构  12-13
2 蛋白质关系抽取相关知识  13-26
  2.1 文本挖掘与信息抽取  13-15
    2.1.1 文本挖掘  13-14
    2.1.2 信息抽取  14-15
  2.2 支持向量机  15-20
    2.2.1 最优分类超平面  16-18
    2.2.2 支持向量机  18-19
    2.2.3 核函数  19-20
  2.3 句法分析  20-23
    2.3.1 依存句法分析  20-21
    2.3.2 深层句法分析  21-23
  2.4 评测方法和实验语料  23-26
    2.4.1 评测指标  23-24
    2.4.2 语料  24-26
3 基于丰富特征的蛋白质关系抽取  26-34
  3.1 基于特征的PPI抽取方法  26-27
  3.2 预处理  27
  3.3 特征向量构建  27-30
    3.3.1 上下文特征  28-29
    3.3.2 句法特征  29-30
  3.4 实验及结果分析  30-34
    3.4.1 方法在AImed语料上的性能分析  31-32
    3.4.2 方法在5个语料上的性能分析  32-33
    3.4.3 下一步工作  33-34
4 基于核函数的蛋白质关系抽取  34-49
  4.1 相关工作  34-35
  4.2 核函数  35-41
    4.2.1 基于特征的核函数  35
    4.2.2 路径加权子序列核  35-39
    4.2.3 图核  39-40
    4.2.4 多核学习  40-41
  4.3 实验及结果分析  41-48
    4.3.1 实验设计  41-42
    4.3.2 核函数在AImed语料上的性能分析  42-43
    4.3.3 核函数在5个语料上的有效性验证实验  43-45
    4.3.4 与其他方法的比较  45-47
    4.3.5 错误分析  47-48
  4.4 总结和下一步工作  48-49
结论  49-51
参考文献  51-54
攻读硕士学位期间发表学术论文情况  54-55
致谢  55-56

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 东北满族民居的文化涵化研究,TU241.5
  3. 多厅影院空间架构研究,TU242.2
  4. 钢在建筑中的技术表现力研究,TU-0
  5. 长春市历史保护区的形态特征与保护对策研究,TU984.114
  6. 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
  7. 民国时期北平城市粮食市场区位分布及其等级研究,K291
  8. 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
  9. 高频雷达信号电离层污染及时频分析方法研究,TN958.93
  10. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  11. 地波辐射源的调制类型识别与参数估计,TN957.51
  12. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  13. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  14. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  15. 基于三维重建的焊点质量分类方法研究,TP391.41
  16. 基于句法特征的代词消解方法研究,TP391.1
  17. 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
  18. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  19. Q学习在基于内容图像检索技术中的应用,TP391.41
  20. 森林防火系统中图像识别算法的研究,TP391.41
  21. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com