学位论文 > 优秀研究生学位论文题录展示

基于CRF的中文命名实体识别研究

作 者: 史海峰
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 命名实体识别 条件随机域 自然语言处理 特征
分类号: TP391.43
类 型: 硕士论文
年 份: 2010年
下 载: 284次
引 用: 5次
阅 读: 论文下载
 

内容摘要


命名实体识别就是把文本中出现的命名实体包括人名、地名、组织机构名、日期、时间、和其他实体识别出来并加以归类。命名实体识别是自然语言处理中的一项基础性工作,同时也是很多应用中的关键技术,如信息检索、信息抽取以及机器翻译等。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。本文首先对当前命名实体识别的研究进行了总结和回顾,并介绍了国内外命名实体识别评测活动,研究了当前命名实体识别研究的进展和命名实体识别所使用的各种方法。系统详细地介绍了条件随机域模型,条件随机域是一种统计机器学习方法,在序列标注和分割方面有着优秀的表现,在模型的训练过程中我们利用了统计词典获得外部特征。实验表明外部特征的加入可以弥补训练规模的不足、显著的提高实体识别效果。利用现有的人民日报标注语料库,以条件随机域模型为基础实现在字一级对于包括外国译名在内的中文人名、地名的识别以及组织机构名的识别。最后,我们采用了基于规则的方法完成了对时间词和数词的识别。从实验结果来看,采用CRF进行命名实体识别取得了较好的识别效果。我们将深入研究CRF模型的特征选取和参数训练问题,进一步提高命名实体识别的效果。

全文目录


摘要  4-5
Abstract  5-10
第一章 绪论  10-21
  1.1 课题背景及意义  10-12
  1.2 命名实体识别的主要任务  12-14
    1.2.1 命名实体识别任务  12-13
    1.2.2 命名实体识别的难点  13-14
  1.3 国内外研究现状分析  14-17
  1.4 研究内容与目标  17-18
  1.5 命名实体识别评测活动  18-19
  1.6 论文的组织结构  19-21
第二章 命名实体识别相关工作研究  21-37
  2.1 相关方法概述  21-25
    2.1.1 基于规则的方法  21-23
    2.1.2 基于统计的方法  23-24
    2.1.3 规则与统计相结合的方法  24-25
  2.2 隐马尔可夫模型  25-29
    2.2.1 隐马尔可夫模型描述  25-27
    2.2.2 Viterbi模型  27-29
  2.3 最大熵模型  29-32
  2.4 条件随机域模型  32-35
    2.4.1 CRF的定义  33-34
    2.4.2 模型的数学表示  34-35
  2.5 本章小结  35-37
第三章 基于条件随机域的命名实体识别  37-46
  3.1 条件随机域  37-38
  3.2 特征函数集  38-41
    3.2.1 特征函数  38-40
    3.2.2 上下文特征  40
    3.2.3 词性特征  40-41
  3.3 特征模板  41-42
  3.4 模型参数估计  42-45
    3.4.1 CRF的参数估计  42-43
    3.4.2 参数估计的训练算法  43-44
    3.4.3 训练过程  44-45
  3.5 本章小结  45-46
第四章 基于规则的时间词、数词识别  46-49
  4.1 时间词识别  46-47
    4.1.1 常用时间词  46
    4.1.2 算法思想  46-47
  4.2 数词识别  47-48
    4.2.1 数量词概述  47-48
    4.2.2 算法思想  48
  4.3 本章小结  48-49
第五章 实验结果与分析  49-53
  5.1 语料选择及工具使用  49-51
    5.1.1 语料的选择  49
    5.1.2 工具的选择  49-51
  5.2 实验结果与分析  51-52
    5.2.1 实验结果  51
    5.2.2 实验结果分析  51-52
  5.3 本章小结  52-53
第六章 总结与展望  53-55
  6.1 本文总结  53
  6.2 未来工作  53-55
参考文献  55-61
附录  61-66
公开发表的论文  66-67
致谢  67

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 东北满族民居的文化涵化研究,TU241.5
  3. 多厅影院空间架构研究,TU242.2
  4. 钢在建筑中的技术表现力研究,TU-0
  5. 长春市历史保护区的形态特征与保护对策研究,TU984.114
  6. 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
  7. 民国时期北平城市粮食市场区位分布及其等级研究,K291
  8. 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
  9. 高频雷达信号电离层污染及时频分析方法研究,TN958.93
  10. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  11. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  12. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  13. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  14. 基于三维重建的焊点质量分类方法研究,TP391.41
  15. 基于句法特征的代词消解方法研究,TP391.1
  16. 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
  17. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  18. Q学习在基于内容图像检索技术中的应用,TP391.41
  19. 森林防火系统中图像识别算法的研究,TP391.41
  20. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  21. 词义消歧语料库自动获取方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com