学位论文 > 优秀研究生学位论文题录展示
领域实体关系自动抽取研究
作 者: 雷春雅
导 师: 郭剑毅
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 领域实体关系 最大熵 二元分类 信息熵 语义标签
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 63次
引 用: 0次
阅 读: 论文下载
内容摘要
实体关系抽取是当前信息检索的一个热点问题。实体关系抽取就是指从特定领域的非结构化文本中自动识别出实体对间的各种潜在语义关系,它在信息检索、自动问答系统中有着广泛的应用。目前,实体关系抽取主要采用有监督的机器学习方法,该方法在标记足够训练数据的条件下,关系抽取的性能较好;而为了减少人工标注训练数据的工作量,半监督学习的实体关系抽取也越来越受到关注。本文首先进行有监督的机器学习方法进行实体关系抽取的研究工作,利用机器学习的统计方法和分类的思想,分别提出了两种有监督的机器学习方法进行旅游领域实体关系抽取研究工作:一是基于最大熵和自扩展的领域实体关系抽取研究;二是基于二元分类思想结合推理方法的领域实体关系抽取研究。在上述两种有监督的机器学习方法研究工作中,本文在相关研究学者工作的基础上,一方面进行了影响关系抽取性能的特征选取工作,结果表明加入实体类型的组合特征、实体对间的距离特征、实体对间的语义词汇特征有效地提高了实体关系抽取的性能。另一方面结合领域实体关系抽取特点,进行了多分类思想和二分类思想的实体关系抽取方法的对比实验,结果表明二分类器比多分类器的预测能力较强。上述这两种有监督的实体关系抽取方法都需要标记大量训练数据,标记数据需要人力、花费时间,如何在标记较少训练数据的基础上进行实体关系抽取研究工作呢?对此问题,接下来本课题进行了第三种方法的探索,提出了基于信息熵的半监督学习的领域实体关系抽取方法,本质是一种基于自扩展思想的小规模训练数据的半监督机器学习方法来抽取实体关系。本文在第三种关系抽取方法中,主要研究以下三个关键问题:首先,初始训练集的选取问题。针对领域实体关系抽取,选取一定数量的小规模已标注种子实例的训练语料,以供机器学习算法对训练语料进行学习得到分类器;其次,训练数据自动扩展问题。通过何种扩展策略或标准来选择可信度较高的新种子实例,并添加到训练数据中;最后,何时终止训练语料的自扩展。主要深入研究训练数据的扩展及迭代终止问题。本文在上述实体关系抽取工作接近完成的同时,考虑到需要给实体关系赋予一个详尽的语义标签,因此,从实践的角度,尝试性地利用基于条件随机场的机器学习算法探索了实体关系的语义标签获取问题。本课题在云南旅游领域探索了实体关系抽取研究实验,包括有监督的两种方法:基于最大熵和自扩展的领域实体关系抽取研究和基于二元分类思想结合推理的领域实体关系抽取研究;还有一种就是半监督学习的实体关系抽取,此外,尝试性的给所获取的实体关系赋予了详细的语义标签,提出采用基于条件随机场的关系语义标签识别工作。实验数据是人工收集的1000篇云南旅游领域语料,实验结果一方面表明有监督的机器学习方法抽取关系时,选取有效特征影响着关系抽取的性能,且在相同特征集的情况下,二分类器比多分类器的预测能力较强;另一方面当少量标记训练数据时,采用信息熵方法迭代扩展训练数据的半监督实体关系抽取时,有效的提高了初始分类器的性能。总体说,半监督学习的关系抽取性能和有监督的关系抽取性能相比,仍有一定的差距。
|
全文目录
摘要 3-5 ABSTRACT 5-8 目录 8-11 第一章 绪论 11-21 1.1 课题提出及意义 11-12 1.2 国内外研究现状 12-16 1.3 实体关系抽取面临的问题 16-17 1.4 本文的研究内容 17 1.5 本文的组织结构 17-21 第二章 实体关系抽取及研究方法 21-31 2.1 实体关系相关概念 21-22 2.1.1 实体关系定义 21 2.1.2 实体关系抽取任务及划分 21-22 2.2 领域实体关系抽取及语义标签 22-25 2.2.1 领域实体关系抽取特点 22-23 2.2.2 领域实体关系抽取任务 23-24 2.2.3 领域实体关系语义标签 24-25 2.3 相关研究方法 25-29 2.3.1 基于模式匹配的关系抽取 25 2.3.2 基于特征向量的机器学习方法 25-26 2.3.3 基于核函数的机器学习方法 26-27 2.3.4 基于自扩展的方法 27-29 2.4 本章小结 29-31 第三章 基于最大熵与自扩展的领域实体关系抽取 31-43 3.1 引言 31 3.2 基于最大熵与自扩展的关系抽取框架 31-32 3.3 最大熵模型 32-33 3.4 自扩展算法及获取语义词汇 33-35 3.4.1 自扩展算法 33 3.4.2 获取语义词汇 33-35 3.5 基于最大熵与自扩展的关系抽取模型构建 35-39 3.5.1 语料的收集与预处理 35-36 3.5.2 特征的选取及训练数据的标注 36-38 3.5.3 模型训练与关系预测 38-39 3.6 实验评测指标 39-40 3.7 实验设计与分析 40-42 3.7.1 组合特征及距离特征对实验性能的影响 40-41 3.7.2 语义词汇特征对实验性能的影响 41-42 3.8 本章小结 42-43 第四章 基于二分类器和推理的领域实体关系抽取 43-47 4.1 引言 43 4.2 基于二分类思想及推理的关系抽取框架 43-44 4.3 二分类思想及推理 44 4.4 训练数据标记和模型实现 44-45 4.5 推理方法及实体关系类别确定 45-46 4.6 实验设计与分析 46 4.7 本章小结 46-47 第五章 基于信息熵的半监督领域实体关系抽取 47-55 5.1 引言 47 5.2 基于信息熵的半监督领域实体关系抽取框架 47-48 5.3 半监督学习方法 48-49 5.4 信息熵 49 5.5 关键技术研究 49-52 5.5.1 初始训练数据集的选取及初始分类器的构建 50-51 5.5.2 训练语料的扩展 51-52 5.5.3 迭代终止条件 52 5.6 实验设计与分析 52-54 5.7 本章小结 54-55 第六章 基于条件随机场的领域实体关系语义标签抽取 55-61 6.1 引言 55 6.2 领域实体关系语义标签的标注 55 6.3 特征选取及特征模板 55-58 6.4 语义标签识别模型的建立 58 6.5 实体关系抽取和语义标签识别的融合过程 58-59 6.6 本章小结 59-61 第七章 领域实体关系原型系统抽取结果展示 61-65 7.1 引言 61 7.2 部分命名实体修正结果展示 61-62 7.3 基于最大熵和自扩展的关系抽取结果展示 62 7.4 基于二分类器和推理的关系抽取结果展示 62-63 7.5 基于信息熵的半监督关系抽取结果展示 63 7.6 本章小结 63-65 第八章 总结与展望 65-71 8.1 总结 65-68 8.2 展望 68-71 致谢 71-73 参考文献 73-77 附录A 攻读硕士学位期间发表的学术论文 77-78 附录B 攻读硕士期间参与项目 78-79 附录C 攻读硕士期间申请软件著作权 79
|
相似论文
- 基于信息熵的课堂观察量化评价模型研究,G632.4
- 领域实体属性及事件抽取技术研究,TP391.1
- 上下文相关的词汇复述研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 城市轨道交通运营管理系统测试与评价方法研究,TP311.52
- 汉语框架自动识别中的歧义消解,TP391.1
- 燃油喷雾粒度分布测量及其信息熵分析,TK407.9
- 基于SCOT的语义标签推荐模型及算法研究,TP391.3
- 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
- 基于判断矩阵一致性的判别方法研究,O151.21
- 蚁群算法在VANET路由协议的应用研究,TN929.5
- 基于改进GA的面向Agent多议题自动谈判研究,F715.4
- 基于未确知测度理论的高技术企业组织柔性评价研究,F224
- 基于低碳经济背景下云南省土地利用结构与碳排放量关系研究,F301
- 海洋产业结构对福建海洋经济的影响与结构优化研究,F127
- 导管架平台设计中的海洋水文气象参数的统计计算,P732
- 基于生产负荷率预测的多供应商订单分配模型,F274
- 等距离采样时间序列曲线拟合,O211.61
- 基于粗糙集理论的快速属性约简算法研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|