学位论文 > 优秀研究生学位论文题录展示

结合机器学习方法的命名实体识别研究

作 者: 史永刚
导 师: 左志宏
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 命名实体识别 统计和规则 机器学习 决策树算法
分类号: TP391.4
类 型: 硕士论文
年 份: 2006年
下 载: 251次
引 用: 4次
阅 读: 论文下载
 

内容摘要


命名实体识别是目前自然语言处理研究的热点问题。MUC(Message Understanding Conferences)对命名实体的定义是:人们感兴趣的专有名词和特定的数量词,它一般可分为:人名、地名、组织机构名、日期等类型。命名实体识别是信息抽取的一个子任务,被广泛地运用到其他计算语言学任务中,比如机器翻译等。与大多数自然语言处理技术一样,命名实体识别的方法主要分为两大类:基于规则(rule-based)的方法和基于统计(statistic-based)的方法。鉴于单独采用基于统计方法或基于规则方法的缺陷,在这篇论文中,采用了统计与规则相结合的方法来识别命名实体。为了使系统具有学习能力,我们把机器学习方法应用于中文命名实体的识别,这里我们着重研究了机器学习中的决策树方法在中文命名实体识别中的应用;设计了一种基于决策树的识别模式,该模式首先利用概率统计方法,在文本中尽量完备地识别出潜在的命名实体,然后利用潜在命名实体相关的上下文词法、语法和语义特征作为属性构建决策树,否定不正确的实体,进一步提高了命名实体识别的准确率。应用以上方法,本文主要对中文命名实体中的人名和地名识别进行了较为深入的研究。实验结果表明,与单纯基于统计和单纯基于规则的命名实体识别方法相比,本文所采用的统计和规则相结合的方法具有更加理想的识别精度;在同样的实验条件下,即同样的训练语料和测试语料的条件下,结合机器学习方法的命名实体识别系统构造简单,并且具有良好的适应性和一定的自我学习的能力。本文具体主要分为以下几个模块:1.文本预处理。2.统计和规则相结合的中文姓名和地名识别。3.结合机器学习中决策树方法的中文姓名和地名识别。4.中文姓名和地名的消歧研究。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-18
  1.1 命名实体识别的研究意义  8-11
    1.1.1 研究意义  8-9
    1.1.2 汉语命名实体识别的难点  9-10
    1.1.3 命名实体识别系统的性能评测指标  10-11
  1.2 国内外的研究历史和研究现状分析  11-16
    1.2.1 国内外的研究历史和现状  11-12
    1.2.2 目前的命名实体识别方法介绍  12-16
  1.3 本文的主要工作  16-18
第二章 文本预处理  18-28
  2.1 引言  18
  2.2 编码和平台问题  18-24
    2.2.1 主要的汉字编码体系介绍  18-22
    2.2.2 汉字编码相互转换  22-24
  2.3 本文的文本预处理方法  24-26
  2.4 本章小结  26-28
第三章 统计与规则相结合的中文姓名和地名识别  28-45
  3.1 引言  28
  3.2 基于统计和规则的中文姓名识别  28-38
  3.3 基于统计和规则的中文地名识别  38-44
    3.3.1 系统结构  38-39
    3.3.2 地名的初步识别  39-41
    3.3.3 利用规则进一步确定地名  41-42
    3.3.4 地名规则的评价函数  42-44
  3.4 本章小结  44-45
第四章 结合机器学习中决策树方法的中文姓名和地名识别研究  45-63
  4.1 引言  45
  4.2 决策树介绍  45-50
    4.2.1 决策树学习的基本概念  45-47
    4.2.2 决策树算法  47-50
  4.3 结合决策树方法的命名实体识别  50-61
    4.3.1 应用决策树方法识别命名实体的可行性分析  50-51
    4.3.2 结合决策树方法的命名实体识别模型  51-52
    4.3.3 属性的选取  52-61
  4.4 本章小结  61-63
第五章 命名实体的歧义消除  63-66
  5.1 引言  63
  5.2 命名实体的歧义类型分析  63
  5.3 本文的歧义消除策略  63-65
  5.4 本章小结  65-66
第六章 研究结论和未来工作  66-68
  6.1 研究结论  66
  6.2 未来工作  66-68
致谢  68-69
参考文献  69-73
研究成果及发表的学术论文  73

相似论文

  1. 教学质量评估数据挖掘系统设计与开发,TP311.13
  2. 基于数据分布特征的文本分类研究,TP391.1
  3. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  4. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  5. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  6. Android恶意软件静态检测方案的研究,TP309
  7. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  8. 互联网流量应用基准分类技术的研究,TP393.06
  9. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  10. 弥散张量成像的脑连接模式分析,R445.2
  11. 图像与文本数据间的异构迁移学习,TP391.41
  12. 在线学习及其在智能交通与金融工程中的应用,U495;F830
  13. 模板独立的网页信息抽取研究,TP393.092
  14. MPEG-2到H.264视频转码算法研究,TN919.81
  15. 支持向量机在入侵检测系统中的应用,TP18
  16. 试卷分析系统的研究与实现,TP311.52
  17. 面向自然场景分类的稀疏编码研究与应用,TP391.41
  18. 旅行目的地中文评论的情感分析研究,TP391.1
  19. 基于梯度特征和级联分类的快速行人检测,TP391.41
  20. 面向金融问答的论坛观点挖掘,TP391.3
  21. 基于图像三维模型重建的研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com