学位论文 > 优秀研究生学位论文题录展示

命名实体与基本名词短语识别研究

作 者: 谭魏璇
导 师: 周国栋;孔芳
学 校: 苏州大学
专 业: 管理科学与工程
关键词: 指代消解 命名实体 基本名词短语 层叠条件随机域模型
分类号: H08
类 型: 硕士论文
年 份: 2010年
下 载: 130次
引 用: 0次
阅 读: 论文下载
 

内容摘要


命名实体识别任务是确定文档中的人名、地名和机构名等文本片段及其类型的过程,而基本名词短语识别的目的是找出篇章中非递归、无后修饰成分的名词短语。二者是文本理解的基础步骤,在很大程度上影响着指代消解等自然语言处理系统的性能。指代消解是自然语言处理的重点和难点之一,涉及机器翻译、信息提取等诸多应用,它的解决依赖于命名实体识别、词性标注等相关技术。本文在深入分析命名实体识别和基本名词短语识别现有技术的基础上,以命名实体识别和基本名词短语识别为研究对象,进行了以下几个方面的工作:首先,本文针对部分地名、机构名嵌套其他命名实体结构的特点,采用层叠条件随机域模型来进行命名实体识别。该方法利用底层模型对简单的命名实体进行初步识别,挑选其中若干个最好识别结果传递到高层条件随机域模型中,进一步对复杂地名和组织机构名进行识别,提高命名实体识别的性能。其次,本文对中文基本名词短语识别采用基于错误驱动的层次模型方法,初步提取包含上下文环境信息的原子特征并进行组合,通过实验选定有效特征,再经过训练生成两层结构的组合分类器,与单纯使用一种分类器的结果相比,层次组合策略能有效提高系统性能。最后,本文将命名实体识别和基本名词短语识别的研究结果应用于中文指代消解平台,通过对预处理环节中命名实体识别和基本名词短语识别模块的改进,在ACE2005中文语料上的实验结果表明,能有效提高中文指代消解系统的性能。

全文目录


中文摘要  4-5
Abstract  5-10
第一章 绪论  10-20
  1.1 课题背景  10-12
  1.2 研究意义  12-13
  1.3 研究现状及趋势  13-18
    1.3.1 命名实体识别的研究现状  14-16
    1.3.2 基本名词短语识别的研究现状  16-18
  1.4 本文研究内容  18-19
  1.5 论文结构  19-20
第二章 命名实体识别研究  20-40
  2.1 命名实体识别任务描述  20-23
    2.1.1 序列标注问题  20-21
    2.1.2 标注方法简介  21-22
    2.1.3 标记偏置问题  22-23
  2.2 相关研究  23-25
    2.2.1 条件随机域相关研究  23-24
    2.2.2 层叠条件随机域相关研究  24-25
  2.3 条件随机域模型简介  25-26
  2.4 特征模板的选择  26-32
    2.4.1 人名特征模板  26-29
    2.4.2 地名特征模板  29-30
    2.4.3 组织机构名特征模板  30-32
    2.4.4 其他特征模板  32
  2.5 基于层叠条件随机域模型的命名实体识别  32-35
    2.5.1 层叠条件随机域模型框架  33-34
    2.5.2 训练和标注  34-35
  2.6 实验结果与分析  35-39
    2.6.1 实验语料  36
    2.6.2 评测指标  36
    2.6.3 结果分析  36-39
  2.7 本章小结  39-40
第三章 基本名词短语识别研究  40-54
  3.1 基本名词短语识别任务描述  40-42
    3.1.1 问题描述  40-41
    3.1.2 特征函数及约束  41-42
  3.2 相关研究  42-43
  3.3 基本名词短语识别的系统框架  43
  3.4 分类器的选取  43-47
    3.4.1 SVM 模型  44-45
    3.4.2 TBL 模型  45-46
    3.4.3 组合分类器模型  46-47
  3.5 特征的选取  47-49
    3.5.1 特征描述  47-48
    3.5.2 原子特征和复合特征  48-49
  3.6 实验结果与分析  49-53
    3.6.1 评测标准  49-50
    3.6.2 特征选择实验  50-51
    3.6.3 组合分类器策略  51-53
  3.7 本章小结  53-54
第四章 命名实体和基本名词短语识别在指代消解中的应用  54-69
  4.1 指代消解的基本概念及研究意义  54-55
  4.2 中文指代消解平台概述  55-56
  4.3 指代消解的预处理  56-60
    4.3.1 分句和分词  56-57
    4.3.2 词性标注和命名实体识别  57-58
    4.3.3 名词短语和语义信息的获得  58-60
  4.4 特征向量的选择  60-62
  4.5 训练实例和测试实例的生成  62-64
    4.5.1 基于规则的过滤  62-63
    4.5.2 构建训练实例  63
    4.5.3 构建测试实例  63-64
  4.6 中文指代消解原型系统实验  64-66
    4.6.1 实验语料  64-65
    4.6.2 评测方法  65-66
    4.6.3 中文原型系统性能  66
  4.7 识别结果在中文指代消解上的应用  66-68
    4.7.1 改进的中文指代消解平台  66-67
    4.7.2 实验结果与分析  67-68
  4.8 本章小结  68-69
第五章 总结和展望  69-72
  5.1 总结  69-70
  5.2 展望  70-72
参考文献  72-77
攻读学位期间公开发表的论文  77
攻读硕士学位期间参与的项目  77-78
致谢  78-79

相似论文

  1. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  2. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  3. 基于本体的医学命名实体识别技术研究,TP391.1
  4. 基于CRF的命名实体和关系的联合抽取,TP391.4
  5. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  6. 基于维基百科的命名实体消歧研究,TP391.1
  7. 中文命名实体识别与歧义消解研究,TP391.1
  8. 中文命名实体识别及若干相关问题的研究,TP391.41
  9. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  10. 基于词和基本短语模式的特征提取方法,TP391.1
  11. 基于条件随机场的中文命名实体识别研究,TP391.4
  12. 基于改进TF-IDF的文本信息热点话题发现,TP391.1
  13. 基于条件随机场的中文命名实体识别,TP391.43
  14. 本地搜索领域POI缩略词词典的研究,TP391.3
  15. 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
  16. 新闻语料中名词短语识别的研究,TP391.43
  17. 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
  18. 中文跨文档指代消解的研究与实现,TP391.1
  19. 中文零指代消解研究,TP391.1
  20. 基于CRF的中文命名实体识别研究,TP391.43
  21. 基于Internet的商业信息抽取,TP399-C2

中图分类: > 语言、文字 > 语言学 > 应用语言学
© 2012 www.xueweilunwen.com