学位论文 > 优秀研究生学位论文题录展示

实体关系自动抽取技术的比较研究

作 者: 宁海燕
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 实体关系抽取 领域术语抽取 Bootstrapping 聚类 DCM合并
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 168次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。文本中特定的事实信息称为实体,而确定这些实体之间的关系称为实体关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决:首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。其次,本文基于不同的应用需求,利用统一的语料对比研究了基于特征的有监督、半监督和无监督的实体关系抽取方法。在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两个实体间无关系即no-relation的影响。对此,本文详细对比了通用特征:实体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法分析对真正关系和no-relation的影响,并提出了新特征:特征词位置信息,实验表明该特征能有效提高实体关系抽取的准确率。本文通过Bootstrapping半监督实体关系抽取方法进行了不同的对比实验:实体特征、种子集规模对实体关系抽取性能的影响;同等条件下,半监督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明半监督实体关系抽取能够提高实体关系抽取的准确率。无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算法,即K-means、自组织映射和Affinity Propagation算法,以及两种合并策略(DCM和Cosine)。Affinity Propagation算法能够取得较优的结果,自组织映射算法在运行时间上更有优势。

全文目录


相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  20. 基于变异粒子群的聚类算法研究,TP18
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com