学位论文 > 优秀研究生学位论文题录展示

英文文本中命名实体识别及关系抽取技术研究

作　者: 李阳
导　师: 过弋
学　校: 华东理工大学
专　业: 计算机软件与理论
关键词: 信息抽取命名实体识别实体关系抽取 GATE框架
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 25次
引　用: 0次
阅　读: 论文下载

内容摘要

命名实体间语义关系抽取是文本信息抽取中的关键步骤,是语义识别的重要研究方向。随着互联网对人们生活、学习、工作等各个方面的不断加深的影响,从自由文本及互联网网页中抽取出有用的结构化信息具有非常重要的意义；随着自然语言处理技术和机器学习技术的不断发展和成熟,人们已经可以从互联网中抽取出结构化信息甚至知识。本文介绍了信息抽取系统的特点及其广泛应用,然后进一步分析了命名实体识别和实体关系抽取的特点和研究进展。在对现有信息抽取系统的研究基础上,本文基于Spring和Struts,利用GATE和WordNet,构建了一个命名实体识别与关系抽取系统,并对抽取结果进行了可视化处理。该系统具有良好的扩展性、易用性,可以作为组件集成到其它信息系统中,有较高的应用价值。此外,在关系抽取方法选择上,本文设计了基于“依赖动词”、“核心介词”、“所有格”这三种算法来实现关系抽取。利用词性、语法解析结构等语义特征,使得系统可以处理共指消解等较复杂状况。实验结果表明,本文提出的算法提高了实体识别与关系抽取的准确性,取得了良好的效果,而且系统使用了基于Java的Web框架来构建,使系统具有了方便移植的特点。

全文目录

摘要  5-6
ABSTRACT  6-9
第1章绪论  9-16
  1.1 引言  9-11
    1.1.1 研究背景  9-10
    1.1.2 研究意义  10-11
  1.2 实体关系抽取的参考标准  11-13
  1.3 相关技术  13-15
    1.3.1 GATE  13-14
    1.3.2 WordNet  14-15
  1.4 本文结构安排  15
  1.5 本章小结  15-16
第2章文献综述  16-26
  2.1 命名实体识别研究综述  16-19
    2.1.1 基于词典的识别方法  16
    2.1.2 基于规则的识别方法  16-17
    2.1.3 基于统计机器学习的识别方法  17-19
  2.2 实体关系抽取研究综述  19-23
    2.2.1 基于规则的实体关系抽取  19-20
    2.2.2 基于统计模型的实体关系抽取  20-22
    2.2.3 基于本体的实体关系抽取  22-23
  2.3 本文工作的特色  23-25
  2.4 本章小结  25-26
第3章系统设计与实现  26-48
  3.1 系统架构  26-30
    3.1.1 Entity Recognition模块  28
    3.1.2 Relation Extraction模块  28-30
  3.2 系统界面  30-33
    3.2.1 Entity Recognition模块的界面  31-32
    3.2.2 Relation Extraction模块的界面  32-33
  3.3 Entity Recognition实现  33-37
    3.3.1 Entity Recognition实现的步骤  33-35
    3.3.2 Tokeniser  35
    3.3.3 抽取规则JAPE  35-36
    3.3.4 指代消解  36-37
  3.4 Relation Extraction实现  37-47
    3.4.1 Relation Extraction之"依赖动词"  38-43
    3.4.2 Relation Extraction之"核心介词"  43-45
    3.4.3 Relation Extraction之"所有格"  45-47
  3.5 本章小结  47-48
第4章系统评测  48-53
  4.1 评测指标  48
  4.2 评测和分析  48-52
    4.2.1 实体识别的评测和分析  49-50
    4.2.2 关系抽取的评测和分析  50-52
  4.3 本章小结  52-53
第5章总结和展望  53-55
  5.1 研究工作总结  53
  5.2 展望进一步的工作  53-55
参考文献  55-59
项目资助  59-60
致谢  60

英文文本中命名实体识别及关系抽取技术研究

内容摘要

全文目录

相似论文