学位论文 > 优秀研究生学位论文题录展示

英文文本中命名实体识别及关系抽取技术研究

作 者: 李阳
导 师: 过弋
学 校: 华东理工大学
专 业: 计算机软件与理论
关键词: 信息抽取 命名实体识别 实体关系抽取 GATE框架
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 25次
引 用: 0次
阅 读: 论文下载
 

内容摘要


命名实体间语义关系抽取是文本信息抽取中的关键步骤,是语义识别的重要研究方向。随着互联网对人们生活、学习、工作等各个方面的不断加深的影响,从自由文本及互联网网页中抽取出有用的结构化信息具有非常重要的意义;随着自然语言处理技术和机器学习技术的不断发展和成熟,人们已经可以从互联网中抽取出结构化信息甚至知识。本文介绍了信息抽取系统的特点及其广泛应用,然后进一步分析了命名实体识别实体关系抽取的特点和研究进展。在对现有信息抽取系统的研究基础上,本文基于Spring和Struts,利用GATE和WordNet,构建了一个命名实体识别与关系抽取系统,并对抽取结果进行了可视化处理。该系统具有良好的扩展性、易用性,可以作为组件集成到其它信息系统中,有较高的应用价值。此外,在关系抽取方法选择上,本文设计了基于“依赖动词”、“核心介词”、“所有格”这三种算法来实现关系抽取。利用词性、语法解析结构等语义特征,使得系统可以处理共指消解等较复杂状况。实验结果表明,本文提出的算法提高了实体识别与关系抽取的准确性,取得了良好的效果,而且系统使用了基于Java的Web框架来构建,使系统具有了方便移植的特点。

全文目录


摘要  5-6
ABSTRACT  6-9
第1章 绪论  9-16
  1.1 引言  9-11
    1.1.1 研究背景  9-10
    1.1.2 研究意义  10-11
  1.2 实体关系抽取的参考标准  11-13
  1.3 相关技术  13-15
    1.3.1 GATE  13-14
    1.3.2 WordNet  14-15
  1.4 本文结构安排  15
  1.5 本章小结  15-16
第2章 文献综述  16-26
  2.1 命名实体识别研究综述  16-19
    2.1.1 基于词典的识别方法  16
    2.1.2 基于规则的识别方法  16-17
    2.1.3 基于统计机器学习的识别方法  17-19
  2.2 实体关系抽取研究综述  19-23
    2.2.1 基于规则的实体关系抽取  19-20
    2.2.2 基于统计模型的实体关系抽取  20-22
    2.2.3 基于本体的实体关系抽取  22-23
  2.3 本文工作的特色  23-25
  2.4 本章小结  25-26
第3章 系统设计与实现  26-48
  3.1 系统架构  26-30
    3.1.1 Entity Recognition模块  28
    3.1.2 Relation Extraction模块  28-30
  3.2 系统界面  30-33
    3.2.1 Entity Recognition模块的界面  31-32
    3.2.2 Relation Extraction模块的界面  32-33
  3.3 Entity Recognition实现  33-37
    3.3.1 Entity Recognition实现的步骤  33-35
    3.3.2 Tokeniser  35
    3.3.3 抽取规则JAPE  35-36
    3.3.4 指代消解  36-37
  3.4 Relation Extraction实现  37-47
    3.4.1 Relation Extraction之"依赖动词"  38-43
    3.4.2 Relation Extraction之"核心介词"  43-45
    3.4.3 Relation Extraction之"所有格"  45-47
  3.5 本章小结  47-48
第4章 系统评测  48-53
  4.1 评测指标  48
  4.2 评测和分析  48-52
    4.2.1 实体识别的评测和分析  49-50
    4.2.2 关系抽取的评测和分析  50-52
  4.3 本章小结  52-53
第5章 总结和展望  53-55
  5.1 研究工作总结  53
  5.2 展望进一步的工作  53-55
参考文献  55-59
项目资助  59-60
致谢  60

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 网页属性抽取的方法研究,TP391.1
  4. 构件垂直搜索引擎的关键技术研究,TP391.3
  5. 面向教育新闻的主题爬虫设计与实现,TP391.3
  6. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  7. 学术主页信息抽取系统的研究,TP393.092
  8. 基于本体的医学命名实体识别技术研究,TP391.1
  9. 基于CRF的命名实体和关系的联合抽取,TP391.4
  10. 主题搜索引擎关键技术研究,TP391.3
  11. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  12. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  13. 基于自然语言打印机人机交互方法研究与实现,TP11
  14. 模板独立的网页信息抽取研究,TP393.092
  15. 面向互联网的多元信息获取技术研究,TP393.09
  16. 中文命名实体识别与歧义消解研究,TP391.1
  17. 网络舆情数据获取与话题分析技术研究,TP393.09
  18. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  19. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  20. 中文命名实体识别及若干相关问题的研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com