学位论文 > 优秀研究生学位论文题录展示

基于最大熵模型的中文实体关系自动抽取研究

作 者: 张宜浩
导 师: 郭剑毅
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 命名实体 共指消解 实体关系抽取 信息抽取 最大熵模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 93次
引 用: 0次
阅 读: 论文下载
 

内容摘要


实体关系抽取就是从特定领域的文本中发现实体对间的各种语义关系,并以结构化的形式存储。它在信息检索、自动问答系统中有广泛的应用,且作为信息抽取领域中的一项关键技术越来越受到关注。与实体主要用于描述自然界中的一个物体或物体的集合不同,实体关系则是发掘实体间的显式或隐式语义联系。实体关系抽取系统的性能取决于多个方面,包括实体的正确探测,实体类型的正确判断,以及实体间关系类型的正确判断等。通常一个较完整的关系抽取系统应该包括依次相连的五个模块:NLP处理、命名实体识别、模式匹配或分类、共指消解、以及新关系的处理和规范化输出。为了实现一个比较完整的关系抽取系统,本文提出了使用最大熵模型的方法来实现实体关系的抽取,并将系统分为依次相连的三个模块:命名实体识别、共指消解、实体关系抽取。其成果和贡献主要体现在以下几个方面:1)命名实体识别:作为关系抽取的一个前续工作,实体识别是本系统的一个重要组成部分。本文采用条件随机场的机器学习算法,综合考虑实体前后一定窗口大小的词、词性等特征,来实现对人物、组织、GEP、位置、交通工具、设施、武器七大类实体的识别,取得了较好的效果。2)共指消解:由于一个命名实体在文本中的同一个句子中可能出现多次、其表现形式也可能多种多样,因此实体间的关系经常会被重复探测。针对在关系抽取中存在的上述问题,提出了通过规则的方法提取向量特征,并利用SVM机器学习算法训练分类器模型的方法实现实体间共指关系的消解。3)基于最大熵模型的实体关系抽取:这部分是本文的主要工作和研究的重点。本文综合考虑词、词性、实体、以及相应的组合特征构建关系抽取的特征集,并在特征构建过程中采用了停用词去除技术,并将共指消解技术用于命名实体的去重处理,避免了实体间关系的重复探测。在利用最大熵模型实现对实体关系自动抽取问题时,通过实验表明由于相对于最大熵算法其它的监督机器学习算法对最终的结果改进不大;在此基础上验证了实体的词和词性特征、停用词、及组合特征是对分类效果极其有用的特征,最终取得了较好的效果。4) DEMO:本系统集成了命名实体识别、共指消解、实体关系抽取三个依次相连的模块,实现对实体及其关系的自动抽取,最后设计了三组实验分别对它们予以测试。

全文目录


摘要  3-4
ABSTRACT  4-9
第一章 绪论  9-15
  1.1 选题背景及意义  9-10
  1.2 国内外研究现状  10-12
  1.3 本课题的研究内容  12-13
  1.4 论文的组织  13-15
第二章 实体关系抽取中的关键技术研究  15-21
  2.1 实体关系抽取系统的框架  15-16
  2.2 实体关系抽取中的关键任务  16-18
    2.2.1 命名实体识别  16
    2.2.2 共指消解  16-17
    2.2.3 实体关系抽取  17-18
  2.3 实体关系抽取的技术路线  18-20
    2.3.1 基于模式匹配的方法  18
    2.3.2 基于词典驱动的方法  18-19
    2.3.3 基于机器学习的方法  19
    2.3.4 基于本体的方法  19
    2.3.5 混合抽取的方法  19-20
  2.4 本章小结  20-21
第三章 基于CRFS的命名实体识别  21-34
  3.1 命名实体识别研究对象  21-23
  3.2 命名实体识别技术研究  23-26
    3.2.1 基于统计的机器学习方法概述  23
    3.2.2 机器学习的思想  23-24
    3.2.3 条件随机场模型(CRFs)  24-26
  3.3 命名实体识别模型的构建  26-33
    3.3.1 语料的选择  26-27
    3.3.2 语料的预处理与标注  27-29
    3.3.3 特征的选取  29-30
    3.3.4 特征模板的制定  30-31
    3.3.5 模型训练与实体预测  31-33
  3.4 本章小结  33-34
第四章 基于SVM的共指消解  34-43
  4.1 关系抽取中引入共指消解的必要性  34
  4.2 共指消解技术研究  34-37
    4.2.1 共指消解研究的基本思想  34-36
    4.2.2 支持向量机(SvM)简述  36-37
  4.3 共指消解模型的构建  37-42
    4.3.1 模型结构与特征选取  37-38
    4.3.2 训练数据的处理  38-39
    4.3.3 共指消解模型的训练  39-42
  4.4 本章小结  42-43
第五章 基于最大熵的实体关系抽取  43-57
  5.1 实体关系的研究对象  43-47
    5.1.1 关系抽取的任务  43-44
    5.1.2 实体关系的说明  44-45
    5.1.3 实体关系的研究方法现状  45-47
  5.2 实体关系抽取研究  47-48
    5.2.1 关系抽取的基本思想及框架  47-48
    5.2.2 最大熵模型(ME)  48
  5.3 实体关系抽取模型构建  48-56
    5.3.1 特征的选取  49-51
    5.3.2 语料的处理与标注  51-54
    5.3.3 模型训练和关系预测  54-56
  5.4 小结  56-57
第六章 实验设计与分析  57-69
  6.1 实验数据及评测指标  57-58
  6.2 命名实体识别实验  58-59
  6.3 共指消解实验  59-60
  6.4 实体关系抽取实验的设计与结果分析  60-65
    6.4.1 不同机器学习算法对实验性能的影响  61-63
    6.4.2 停用词去除处理对实验性能的影响  63-64
    6.4.3 组合特征对实验性能的影响  64-65
  6.5 部分识别结果展示  65-67
    6.5.1 基于SVM的共指消解展示  65-66
    6.5.2 基于ME模型的实体关系抽取展示  66-67
  6.6 本章小结  67-69
第七章 总结与展望  69-71
  7.1 总结  69-70
  7.2 展望  70-71
致谢  71-72
参考文献  72-76
附录A 攻读硕士学位期间发表的学术论文  76-77
附录B 攻读硕士学位期间参与的项目  77

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 人物言论抽取与跟踪技术研究,TP391.1
  4. 汉语框架自动识别中的歧义消解,TP391.1
  5. 网页属性抽取的方法研究,TP391.1
  6. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  7. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  8. 构件垂直搜索引擎的关键技术研究,TP391.3
  9. 面向教育新闻的主题爬虫设计与实现,TP391.3
  10. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  11. 学术主页信息抽取系统的研究,TP393.092
  12. 基于本体的医学命名实体识别技术研究,TP391.1
  13. 基于CRF的命名实体和关系的联合抽取,TP391.4
  14. 主题搜索引擎关键技术研究,TP391.3
  15. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  16. 基于维基百科的命名实体消歧研究,TP391.1
  17. 基于自学习的社会关系抽取的研究,TP391.1
  18. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  19. 基于自然语言打印机人机交互方法研究与实现,TP11
  20. 模板独立的网页信息抽取研究,TP393.092
  21. 面向互联网的多元信息获取技术研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com