学位论文 > 优秀研究生学位论文题录展示

信息抽取中关键技术的研究

作 者: 张素香
导 师: 钟义信
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 命名实体识别 实体关系抽取 全信息 最大熵 条件随机场
分类号: TP391.1
类 型: 博士论文
年 份: 2007年
下 载: 2033次
引 用: 28次
阅 读: 论文下载
 

内容摘要


随着Internet技术的不断发展和网上电子文本的日益增多,使得用户从网上获取有效信息变得日趋困难。面对信息爆炸带来的问题,亟需一些智能化工具来帮助人们从海量信息中获取真正需要的信息,信息抽取正是基于这一需求而产生的。信息抽取目前已经成为人们研究的热点,根据ACE(Automatic Content Extraction)会议评测任务的划分,它主要研究命名实体识别实体关系抽取、指代消解、事件探测这四个领域。其中,实体识别和关系抽取又是这些任务中最重要的部分。本文对信息抽取技术的研究主要集中在命名实体识别和实体关系抽取两个方面,将先进的机器学习算法和全新的理论方法—全信息理论运用到我们的整个研究过程中。本文的贡献主要有以下几个方面:1、提出了一种专家知识和多模型相结合的命名实体识别方法,充分考虑了专家知识在命名实体识别中的作用。根据实体类型的不同,分别采用不同的实现方法,人名、地名识别采用先规则后统计的方法,而组织机构名识别则采用先统计后规则的方法。统计学习方法应用了最大熵(Maximum Entropy,ME)和条件随机场(Conditional Random Fields,CRFs)算法。命名实体识别的主要贡献详细描述如下:首先,命名实体识别系统利用专家知识和规则进行人名、地名的候选,然后再将候选的实体输入统计模型进行判断,其中,在处理候选人名时,为了防止一个外国译名被部分识别为一个或几个中国人名,提出了动态优先级方法,该方法首先建立高频的歧义字,这些字既可用作中国人名的姓氏,又可经常出现在外国译名中,实体识别系统在处理候选人名时一旦遇到这些高频歧义字,利用前后向探测方法灵活地调用中外人名识别模型,实验证明,该方法极大地提高了人名识别的性能指标。地名的候选也充分利用了“省、市、山、湖、自治县”等明显的后缀信息以及“奔赴、赴、故都”等前缀信息,作为触发地名识别模块工作的条件。模型中的特征包括了各个层面:实体的上下文环境、上下文的特定语义、实体中不同字或词对实体识别的贡献度等。本文使用了概率信息,增强了样本的差异性,提高了人名、地名识别的召回率和准确率。除此之外,还首次提出自信度函数、顺序等特征,这些特征在实体识别中发挥了巨大作用。其次,细化分类模型。为了提高实体识别的性能指标,采用层叠方式的多模型结构,模型分为中国人名、外国译名、地名和组织机构名等识别模型,针对不同的模型抽取了不同的特征。第三,由于组织机构名长度不一,很难直接用规则的方法进行机构名候选,因此,本文采用先统计后规则的方法,并借鉴了短语识别技术,与常用的短语BIO识别方法相比,本文定义了BILO四类标记,增加一类标记L。采用BILO方法,将机构名识别转化为相应的标记分类任务,使机构名识别任务简单化。并且,本文还针对不同的机器学习方法开发了相应特征。最后,利用规则——特殊模板来识别利用统计方法没有识别出的机构名。利用该命名实体识别系统参加了2006年SIGHAN中的命名实体比赛,实验语料来自微软亚洲研究院,获取了最好成绩。本文还利用1998年1月的《人民日报》进行实验,对比了ME、CRFs用于汉语命名实体识别的实验结果,通过对结果的分析和比较,表明CRFs模型在性能上优于ME模型。2、提出了基于CRFs的实体关系自动抽取方法,主要自动抽取句子中二元实体之间的关系,主要从以下两个方面完成:首先,收集和标注语料。以“人事变动”领域为例,基于《人民日报》和互联网进行语料收集工作,将收集到的语料进行切分、POS等预处理后,再改写为XML树。在此基础上,我们标注了三类实体关系:职位、人、公司三者之间的关系,以及一定数量的反例,从而为后续研究打下基础。其次,在完成语料的收集、整理和标注工作后,建立了实验系统模型,利用CRFs算法进行实体关系的自动抽取实验。针对不同的实体关系选取不同特征,实验结果证明,CRFs和其它算法相比,可以有效地解决二元实体关系的自动抽取问题。3、为了正确获取文本中隐含的实体关系并推送给用户一个更完整的结果,以全信息理论为方法论,在该方法论的指引下,充分利用语法、语义、语用等方面的知识,挖掘、获取多个实体之间的关系。具体表现为以下两点:首先利用机器学习方法获取分析实体关系时必不可少的语法知识,该语法知识由若干抽取模板组成。为了克服获取大规模标注语料这一困难,提出利用无监督的学习方法——Bootstrapping方法获取抽取模板,并提出了层次知识获取模型,该模型由内外两层知识获取模块组成,内外两层模块互相嵌套获取了实体关系抽取所需的领域专业特征词表和抽取模板库,从而完成语法知识的获取任务。其次,建立全信息知识库。采用语义框架的表示方法,结合“模式—行为”规则,对抽取模板进行语义分析和施效结果分析,挖掘出隐含的实体关系,同时修正已得到的错误实体关系,通过对最终实体关系的推理和整合,给用户推送一个完整的结果。实验结果表明,基于全信息的实体关系获取方法能有效地解决多个实体关系的同时获取问题。

全文目录


摘要  5-8
ABSTRACT  8-15
第一章 绪论  15-27
  1.1 信息抽取的基本概念  15-16
  1.2 信息抽取研究现状  16-20
    1.2.1 信息抽取的发展简史  16-17
    1.2.2 国外研究现状  17-19
    1.2.3 国内研究现状  19-20
  1.3 信息抽取的主要研究内容  20-22
    1.3.1 命名实体识别  20
    1.3.2 实体关系抽取  20-21
    1.3.3 指代消解  21-22
    1.3.4 事件探测  22
  1.4 本文的研究工作  22-24
  1.5 本文的内容安排  24-27
第二章 机器学习方法  27-43
  2.1 引言  27
  2.2 机器学习系统的基本结构  27-29
  2.3 机器学习的本质  29-30
  2.4 最大熵算法  30-34
    2.4.1 问题描述  30-31
    2.4.2 建立统计、特征和约束条件  31
    2.4.3 引入最大熵原理  31-32
    2.4.4 参数估计  32-34
  2.5 条件随机场  34-40
    2.5.1 条件随机场的无向图结构  35-36
    2.5.2 条件随机场  36-38
    2.5.3 参数估计  38-39
    2.5.4 标记偏差问题  39-40
  2.6 机器学习在自然语言处理中的发展历程  40-41
  2.7 本章小结  41-43
第三章 汉语命名实体识别  43-77
  3.1 命名实体相关的概念  43-47
    3.1.1 命名实体的定义  43-44
    3.1.2 研究命名实体的意义  44
    3.1.3 命名实体识别难点及存在问题  44-46
    3.1.4 实验指标  46-47
  3.2 汉语命名实体识别技术的相关研究  47-50
  3.3 专家知识和多模型相结合的汉语命名实体识别  50-56
    3.3.1 基于最大熵方法的实体识别模型  53-55
    3.3.2 基于条件随机场(CRFs)的实体识别模型  55-56
  3.4 候选实体的产生  56-59
    3.4.1 中国人名的候选方法  56-58
    3.4.2 外国译名的候选方法  58
    3.4.3 地名的候选方法  58
    3.4.4 机构组织名  58-59
  3.5 人名候选的二个问题  59-62
    3.5.1 中国人名的边界确定  59-60
    3.5.2 外国译名的候选问题  60-62
  3.6 建立辅助规则  62
  3.7 命名实体识别所需的专家知识  62-63
  3.8 特征选择  63-68
    3.8.1 人名、地名识别的特征选择  64-66
    3.8.2 组织机构名识别的特征选择  66-68
  3.9 实验  68-74
    3.9.1 实验设置  68-69
    3.9.2 人名、地名的交叉验证实验  69-70
    3.9.3 组织机构名的交叉验证实验  70-71
    3.9.4 训练语料选取  71-72
    3.9.5 实验测试结果  72-73
    3.9.6 实验结果分析  73-74
  3.10 SIGHAN评测  74-76
  3.11 本章小结  76-77
第四章 实体关系的自动抽取研究  77-94
  4.1.实体关系的相关概念  77-79
    4.1.1 实体关系的定义  77-78
    4.1.2 实体关系任务的划分  78-79
    4.1.3 实体关系的评测指标  79
  4.2 相关研究  79-82
    4.2.1 基于模板的方法  80
    4.2.2 基于特征的实体关系抽取  80-81
    4.2.3 基于Kernel的实体关系获取  81
    4.2.4 基于无监督的学习方法  81-82
    4.2.5 其它方法  82
  4.3 基于CRFs的实体关系自动抽取研究  82-89
    4.3.1 CRFs的相关理论  83
    4.3.2 实验系统设计  83-84
    4.3.3 语料标注  84-86
    4.3.4 特征选择  86-89
  4.4 实验  89-92
    4.4.1 交叉验证实验  89-90
    4.4.2 训练语料规模与实验性能的关系  90-91
    4.4.3 基于CRFs和最大熵的性能比较  91-92
  4.5 本章小结  92-94
第五章 基于全信息的实体关系获取研究  94-113
  5.1 研究背景和方法的提出  94-95
  5.2 全信息的自然语言理解方法  95-98
  5.3 语法知识的自动获取研究  98-104
    5.3.1 总体思路  99-100
    5.3.2 知识获取  100-104
  5.4 语义知识研究  104-105
  5.5 语用知识研究  105
  5.6 基于全信息的实体关系分析方法  105-110
    5.6.1 全信息知识库的内容  106-110
    5.6.2 基于全信息知识库的实体关系分析模型  110
  5.7 实验结果  110-111
  5.8 本章小结  111-113
第六章 总结与展望  113-116
  6.1 总结  113-114
  6.2 展望  114-116
参考文献  116-128
致谢  128-130
攻读博士学位期间发表的论文  130-131

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 城市轨道交通运营管理系统测试与评价方法研究,TP311.52
  4. 汉语框架自动识别中的歧义消解,TP391.1
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 基于空间邻域词袋模型的图像标注技术,TP391.41
  7. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  8. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  9. 基于本体的医学命名实体识别技术研究,TP391.1
  10. 基于CRF的命名实体和关系的联合抽取,TP391.4
  11. 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
  12. 基于条件随机场的RNA二级结构预测算法,R346
  13. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  14. 基于自学习的社会关系抽取的研究,TP391.1
  15. 基于字词联合解码的中文分词研究,TP391.1
  16. 特定领域中文术语抽取,TP391.1
  17. 中文命名实体识别与歧义消解研究,TP391.1
  18. 导管架平台设计中的海洋水文气象参数的统计计算,P732
  19. 等距离采样时间序列曲线拟合,O211.61
  20. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  21. 自由搜索算法的改进及其在图像分割中的应用,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com