学位论文 > 优秀研究生学位论文题录展示

基于SVM和链接分析的蛋白质关系抽取系统

作 者: 吴宝栋
导 师: 林鸿飞
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 关系抽取 支持向量机(SVM) 链接语法分析 指代消解 实体识别
分类号: R319
类 型: 硕士论文
年 份: 2007年
下 载: 114次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着生物医学文献数量的急剧增长,各种各样的生物医学信息出现在生物医学研究者面前。这给生物医学研究者带来很沉重的负担,使他们很难迅速地从这些文献中找到需要的信息。为了提高他们的工作效率,迫切地需要一些自动化的工具帮助他们在海量生物医学文献中迅速地找到需要的信息。生物医学文献中蛋白质(基因)相互作用关系抽取的研究正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质(基因)相互作用关系也具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。本文构建了一个生物医学文献中的蛋白质相互作用关系抽取系统。该系统使用基于支持向量机(SVM)和链接分析(Link parse)的方法抽取蛋白质(基因)交互作用关系。系统首先通过指代消解替换生物医学文献中的第三人称代词,然后使用条件随机域模型对生物医学文献进行实体识别,通过链接语法分析器分析文献中句子的链接路径,最后通过四大类特征的提取,包括:词项特征、关键词特征、链接特征以及词对特征,利用SVM分类器抽取蛋白质(基因)相互作用关系。本文首先介绍了蛋白质相互作用关系抽取的相关知识和研究概况,然后重点介绍了本文的实验系统所使用的核心方法——统计学习理论与支持向量机(SVM),接下来对系统使用的其他方法进行了详细描述,包括指代消解、命名实体识别、链接语法与链接语法分析器以及链接路径提取、关系抽取的特征选取。本文的最后给出了系统实现与性能评估。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-12
  1.1 研究背景  9
  1.2 应用领域  9-10
  1.3 本文的工作  10-11
  1.4 本文的结构  11-12
2 蛋白质关系抽取相关知识及研究综述  12-19
  2.1 蛋白质关系抽取的相关知识  12-17
    2.1.1 信息抽取的定义  12-13
    2.1.2 信息抽取的应用对象  13
    2.1.3 信息抽取的评价标准  13-14
    2.1.4 关系抽取的历史  14-15
    2.1.5 关系抽取的研究现状  15-17
  2.2 蛋白质相互作用关系抽取的研究现状  17-19
3 统计学习理论与支持向量机  19-30
  3.1 统计学习理论概述  19-24
    3.1.1 学习问题的数学表达  19-20
    3.1.2 统计学习理论的核心内容  20
    3.1.3 VC维  20-21
    3.1.4 经验风险最小化  21
    3.1.5 复杂性与推广能力  21-22
    3.1.6 推广性的界  22-23
    3.1.7 结构风险最小化  23-24
  3.2 支持向量机  24-30
    3.2.1 广义最优分类面  24-26
    3.2.2 支持向量机  26-27
    3.2.3 核函数  27-28
    3.2.4 用于函数拟合的 SVM  28-29
    3.2.5 核函数主要成分分析  29-30
4 系统方法描述  30-44
  4.1 指代消解  30-32
    4.1.1 指代消解的相关概念  30-31
    4.1.2 指代消解的基本原理和方法  31
    4.1.3 指代消解的主要实现技术  31
    4.1.4 DUTExtractor系统的指代消解  31-32
  4.2 命名实体识别  32-34
    4.2.1 条件随机域模型的简要介绍  32-33
    4.2.2 DUTExtractor系统的命名实体识别  33-34
  4.3 链接语法与链接路径提取算法  34-40
    4.3.1 链接语法的形式定义和基本概念  34-37
    4.3.2 链接语法的主要特点  37
    4.3.3 链接语法的分析算法  37-39
    4.3.4 DUTExtractor系统中链接语法分析器的作用以及链接提取算法  39-40
  4.4 关系抽取的特征选取  40-44
    4.4.1 词项特征  40-41
    4.4.2 关键词特征  41-42
    4.4.3 链接特征  42
    4.4.4 词对(pair)特征  42-44
5 系统实现与性能评估  44-50
  5.1 系统框架  44-45
  5.2 系统实现  45-47
    5.2.1 系统实现采用的编程语言  45
    5.2.2 系统实现采用的数据库管理软件  45-46
    5.2.3 系统界面与输入输出  46-47
    5.2.4 实验语料及训练和测试数据的构造  47
  5.3 系统性能评估  47-50
    5.3.1 系统关系抽取结果  47-49
    5.3.2 系统关系抽取错误分析  49-50
结论  50-51
参考文献  51-54
攻读硕士学位期间发表学术论文情况  54-55
致谢  55-56

相似论文

  1. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  2. 基于本体的医学命名实体识别技术研究,TP391.1
  3. 基于CRF的命名实体和关系的联合抽取,TP391.4
  4. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  5. 基于自学习的社会关系抽取的研究,TP391.1
  6. 基于SVM-RFE的潜在生物标志物选择算法研究,TP311.13
  7. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  8. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  9. 智能化教学中的情感识别方法研究,TP391.41
  10. 中文命名实体识别与歧义消解研究,TP391.1
  11. 高速公路交通安全综合评价和瓶颈问题分析,U492.8
  12. 基于内容的Web新闻文本自动分类问题研究,TP391.1
  13. 中文命名实体识别及若干相关问题的研究,TP391.41
  14. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  15. 基于BCI多动作模式的ERD/ERS信号分析及识别方法的研究,TN911.6
  16. 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
  17. 基于分层需求的领域本体构建及语义标注方法研究,TP391.1
  18. 基于对象语义的图像检索,TP391.41
  19. 基于条件随机场的中文命名实体识别研究,TP391.4
  20. 基于条件随机场的中文命名实体识别,TP391.43
  21. 本地搜索领域POI缩略词词典的研究,TP391.3

中图分类: > 医药、卫生 > 基础医学 > 医用一般科学 > 其他科学技术在医学上的应用
© 2012 www.xueweilunwen.com