学位论文 > 优秀研究生学位论文题录展示

基于特征向量的实体间语义关系抽取研究

作 者: 毛小丽
导 师: 何中市
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 实体关系抽取 语义角色 特征选择 期望交叉熵 x~2统计
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 62次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的迅猛发展和广泛运用,大量的信息以非结构化电子文本的形式出现在人们面前。为了更好地获得这些非结构化信息,信息抽取应运而生。信息抽取,就是从自然文本中提取出预先指定好的信息,并给出该信息的结构化描述。其中,实体关系抽取作为信息抽取研究中的一个重要课题,它的基本任务是识别并判定实体对之间存在的特定关系,目前主要的抽取技术为基于特征向量和基于核函数的机器学习算法。实体关系抽取研究的意义在于它与信息过滤、信息检索和问答系统有直接的关联,并且作为一项基础性研究,它对于内容理解、语境生成、自动文摘、机器翻译、文本分类以及信息过滤等都有重要的研究意义。本文针对基于特征向量的实体关系抽取中涉及的两个主要问题(特征选取和特征选择)进行了研究,具体内容包括以下两方面:1.提出了基于语义角色特征的实体关系抽取方案。基于特征向量的实体关系抽取本质上是将实体关系抽取问题转化为分类问题,即先定义好几个关系类型,然后将实体对之间的关系分类到预定义的关系类型。目前实体关系抽取常用的特征有实体及其上下文特征、动词特征、距离特征、实体扩展特征等,然而实体间关系的判别是语义层面的,不能仅依赖于词语层面。因此本文提出了基于语义角色的实体关系抽取方案,该方案在常用特征的基础上新加入了语义角色特征。由于语义角色的标注代表了句子的浅层语法结构,它不仅暗示了谓词和谓词框架中其它词语之间的语义关系,还暗示了谓词的不同成分之间的语义关系。因此,包含了丰富信息的语义角色特征,将有助于区分不同实体间的关系类型,进而在一定程度上提高实体关系抽取结果。2.提出了基于特征选择的实体关系抽取方案。在文本分类问题中,特征空间维数一般能达到几万或者几十万维,这样的高维空间一方面将使得训练分类模型以及预测结果的时间开销大大提高,另一方面还可能由于引入了一些不必要的特征而使得抽取分类有所降低。针对上述问题,人们已经进行了长时间的研究,并且取得了一定成果。在基于特征向量的实体关系抽取问题中,也存在类似的问题,即过高的特征空间增加了关系抽取的时间开销,并降低了性能。考虑到文本分类和实体关系抽取问题的相似性,本文研究提出了一种实体关系抽取方案,该方案引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,有效的实现了实体关系抽取中的特征空间降维。

全文目录


中文摘要  3-4
英文摘要  4-8
1 绪论  8-12
  1.1 问题的提出及研究意义  8-9
    1.1.1 问题的提出  8
    1.1.2 研究意义  8-9
  1.2 国内外研究现状  9-11
    1.2.1 实体关系抽取的国内外研究现状  9-10
    1.2.2 存在的主要问题  10-11
  1.3 论文的主要研究内容与章节安排  11-12
2 实体关系抽取的理论基础  12-19
  2.1 实体关系抽取概述  12-13
    2.1.1 实体  12
    2.1.2 实体关系  12-13
  2.2 实体关系抽取技术  13-15
    2.2.1 基于知识库的抽取算法  13
    2.2.2 指导性学习方法  13-14
    2.2.3 弱指导性学习方法  14-15
    2.2.4 无指导性学习方法  15
  2.3 分类器概述  15-17
    2.3.1 支持向量机(SVM)概述  15-16
    2.3.2 最大熵分类器(MaxEnt)  16-17
  2.4 实体关系抽取性能评测  17
  2.5 小结  17-19
3 基于语义角色的实体关系抽取  19-34
  3.1 基于语义角色的实体关系抽取流程  19-20
  3.2 词法分析  20
  3.3 语义角色标注  20-22
  3.4 特征抽取  22-26
    3.4.1 常用特征  22-23
    3.4.2 语义角色特征  23-24
    3.4.3 特征抽取算法  24-25
    3.4.4 特征抽取举例  25-26
  3.5 特征向量构造  26-27
  3.6 基于语义角色的实体关系抽取方案  27-29
  3.7 实验  29-33
    3.7.1 实验设计  29-30
    3.7.2 实验数据  30-31
    3.7.3 实验结果及分析  31-33
  3.8 小结  33-34
4 基于特征选择的实体关系抽取  34-43
  4.1 基于特征选择的实体关系抽取系统流程  34-35
  4.2 特征选择  35-38
    4.2.1 基于x2 统计(CHI)的特征选择  35-36
    4.2.2 基于信息增益(Information Gain,IG)的特征选择  36-37
    4.2.3 基于期望交叉熵(Expected Cross Entropy,CE)的特征选择  37-38
  4.3 基于特征选择的实体关系抽取方案  38-40
  4.4 实验  40-42
    4.4.1 实验设计  40-41
    4.4.2 实验结果及分析  41-42
  4.5 小结  42-43
5 结论与展望  43-45
  5.1 论文的主要研究结论  43
  5.2 下一步研究工作的展望  43-45
致谢  45-46
参考文献  46-50
附录  50
  A. 作者在攻读硕士学位期间发表的论文目录  50
  B. 作者在攻读硕士学位期间参加的科研项目目录  50

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 基于特征选择的入侵检测研究,TP393.08
  5. 基于数据分布特征的文本分类研究,TP391.1
  6. 评价对象抽取研究,TP391.1
  7. 数据流特征选择策略的研究,TP311.13
  8. 基于树核方法的中文语义角色标注研究,TP391.1
  9. 中文名词性谓词的语义角色标注研究,TP391.1
  10. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  11. 基于联合方法的中文语义角色标注研究,TP391.1
  12. 基于特征选择的轻量级入侵检测系统,TP393.08
  13. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  14. 基于马尔可夫逻辑网络的语义角色标注,TP391.1
  15. 互联网舆情监控分析系统的研究与实现,TP393.09
  16. 比较句与比较关系识别研究及其应用,TP391.1
  17. 现代汉语中表遭受语义的句模研究,H146
  18. 语义角色标注的集成策略的研究,TP391.1
  19. 基于Web的比较观点挖掘方法研究,TP391.1
  20. 基于依存关系的中文语义角色标注研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com