学位论文 > 优秀研究生学位论文题录展示

基于维基百科的命名实体消歧研究

作 者: 唐博蓉
导 师: 陈英
学 校: 北京理工大学
专 业: 计算机科学与技术
关键词: 命名实体 消歧 特征提取 维基百科
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 97次
引 用: 0次
阅 读: 论文下载
 

内容摘要


词义是词汇在一定的语言环境下反映的特定语言现象。在自然语言中,一个词汇往往存在多个词义,称为词的多义性。词义消歧就是使计算机自动为词汇选择正确意思,这是自然语言处理领域中词汇级别上的难题,并且该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果。同时,多义词分布的普遍性决定了多义词词义消歧任务势必成为多种应用问题的关注焦点之一。诸如机器翻译、信息检索、自然语言内容语义分析、语法分析、语音识别和文语转换。命名实体是文本中承载信息的重要语言单位。命名实体的歧义问题在很多应用中已经成为一个亟待解决的问题。本文对当前主流的针对命名实体的消歧方法进行了深入的研究,分析了不同消歧方法的特点和不足,提出了一种基于维基百科(Wikipedia)命名实体消歧方法。本文阐述的主要研究内容和取得的阶段成果是:1.阐述当前命名实体消歧问题的研究历史与现状,讨论命名实体消歧的概念、分类与基本方法。2.探讨分析传统命名实体消歧方法的基本原理并深入研究当前主流命名实体消歧方法的特征选取,消歧过程及各自的优劣。3.提出了一种基于维基百科的命名实体消歧方法,提取多项特征,并通过机器学习的方法得到消歧结果。4.从给定的实验数据集上进行对比实验,实验结果表明,所提出的方法在精度上比传统消歧方法有明显的提高。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-13
  1.1 研究背景与论文成因  9-11
  1.2 主要研究内容和论文成果  11
  1.3 本文的组织与结构  11-13
第2章 命名实体消歧方法  13-20
  2.1 命名实体消歧的定义和分类  13-15
    2.1.1 命名实体消歧的定义  13-14
    2.1.2 命名实体消歧方法的分类  14-15
  2.2 命名实体消歧的方法  15-18
    2.2.1 基于表层特征的“词袋”模型  15-17
    2.2.2 基于社会化网络的消歧模型  17-18
  2.3 本章小结  18-20
第3章 维基百科与命名实体消歧  20-24
  3.1 维基百科  20-21
  3.2 维基百科中的可用信息  21-22
  3.3 维基百科与命名实体消歧  22-23
  3.4 本章小结  23-24
第4章 基于维基百科的命名实体消歧方法  24-48
  4.1 实体链接  24-25
  4.2 预处理维基百科  25-33
    4.2.1 建立命名指称项到命名实体的映射  26-29
    4.2.2 建立命名实体的上下文词汇表  29-30
    4.2.3 建立命名实体的邻近上下文词汇表  30-32
    4.2.4 建立命名实体的相关实体表  32-33
    4.2.5 建立实体到实体类别的映射表  33
  4.3 命名实体消歧的特征提取  33-43
    4.3.1 实体的流行程度(Popularity)  34-35
    4.3.2 实体的上下文相似度  35-39
    4.3.3 实体的邻近上下文相似度  39-40
    4.3.4 实体的相关实体关联度  40-42
    4.3.5 实体的类别关联度  42-43
  4.4 命名实体消歧算法  43-47
    4.4.1 转化为二分类问题  43-45
    4.4.2 分类算法  45-47
  4.5 本章小结  47-48
第5章 实验结果与分析  48-54
  5.1 TAC KBP 评测  48-51
    5.1.1 目标实体知识库  48-50
    5.1.2 评测数据  50
    5.1.3 评测指标  50-51
  5.2 实验与结果分析  51-53
  5.3 本章小结  53-54
第6章 总结与展望  54-56
  6.1 本文工作总结  54-55
  6.2 未来工作展望  55-56
参考文献  56-58
致谢  58

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 词义消歧语料库自动获取方法研究,TP391.1
  6. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  7. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  8. 空间交会接近视觉测量方法研究,TP391.41
  9. 图像实时采集、存储与处理方法研究,TP391.41
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 多币种纸币处理技术的研究与实现,TP391.41
  12. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  13. 基于图像的路面破损识别,TP391.41
  14. 移动机器人视觉检测和跟踪研究,TP242.62
  15. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  16. 基于随机森林的植物抗性基因识别方法研究,Q943
  17. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  18. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  19. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  20. 红外图像目标识别及跟踪技术研究,TP391.41
  21. 水下目标特征的压缩与融合技术研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com