学位论文 > 优秀研究生学位论文题录展示

基于N-gram模型的哈萨克语实体名识别方法研究

作　者: 冯鲸华
导　师: 古丽拉·阿东别克
学　校: 新疆大学
专　业: 计算机软件与理论
关键词: 实体名识别 N-gram模型哈萨克语
分类号: TP391.43
类　型: 硕士论文
年　份: 2010年
下　载: 35次
引　用: 0次
阅　读: 论文下载

内容摘要

实体名是一个文本中最基本的信息元素,它是正确理解一篇文章的基础,实体名识别对机器翻译、文本检索等都有着重要的指示作用。目前,研究人员在英语和汉语实体名识别两个方面都取得了较多的研究成果,然而哈萨克语实体名识别还处于研究阶段,因此研究哈萨克语实体名识别具有重大的理论和现实意义。本文分析了国内外在实体名识别方面所做的一些研究工作,结合哈萨克语实体名的特点,采用了基于规则和统计相结合的方法,提出一种基于N-gram语言模型的哈萨克语可信度计算方法进行哈萨克语实体名识别研究,设计并实现了一个哈萨克语实体名识别系统。该系统能较好地完成对哈萨克语实体名的识别,使人们能快速地从文本中获取有效的信息,具有一定的应用价值。最后,本文对一个月的《新疆日报》哈语版语料进行了测试,测试结果表明该系统对哈萨克语实体名的识别效果比较满意,其准确率、召回率和F值都达到了60%以上。

全文目录

摘要  3-4
Abstract  4-7
第一章绪论  7-12
  1.1 课题来源  7
  1.2 研究背景与意义  7-8
  1.3 国内外研究现状  8-11
  1.4 本文主要研究内容与组织结构  11-12
第二章实体名识别综述  12-20
  2.1 实体名识别概述  12-13
  2.2 实体名识别方法  13-16
    2.2.1 基于规则的方法  13-14
    2.2.2 基于统计的方法  14-15
    2.2.3 规则与统计相结合的方法  15-16
  2.3 实体名识别系统介绍  16-19
  2.4 本章小结  19-20
第三章基于N-gram 模型的哈萨克语实体名识别  20-29
  3.1 哈萨克语实体名特征  20-22
    3.1.1 哈萨克语人名特征  20-21
    3.1.2 哈萨克语地名特征  21
    3.1.3 哈萨克语机构名特征  21-22
  3.2 基于N-gram 模型的哈萨克语实体名识别  22-28
    3.2.1 N-gram 语言模型  22-23
    3.2.2 参数N 的选择及最大似然估计  23-25
    3.2.3 数据稀疏与平滑算法  25-28
    3.2.4 基于N-gram 模型的实体名可信度计算  28
  3.3 本章小结  28-29
第四章哈萨克语实体名识别系统的研究与实现  29-48
  4.1 开发环境概述  29
  4.2 文本语料预处理  29
  4.3 实体名识别系统结构  29-31
  4.4 哈萨克语人名识别  31-38
    4.4.1 人名识别流程  31
    4.4.2 人名特征提取  31-33
    4.4.3 人名识别可信度计算  33
    4.4.4 人名识别所需规则库的构建  33-35
    4.4.5 人名识别数据库的设计  35-36
    4.4.6 人名识别算法分析与实现  36-38
  4.5 哈萨克语地名与机构名识别  38-47
    4.5.1 地名与机构名识别流程  38
    4.5.2 地名与机构名特征提取  38-41
    4.5.3 地名与机构名识别可信度计算  41
    4.5.4 地名与机构名识别所需规则库的构建  41-43
    4.5.5 地名与机构名识别数据库的设计  43-44
    4.5.6 地名与机构名识别算法分析与实现  44-47
  4.6 本章小结  47-48
第五章测试结果及分析  48-53
  5.1 系统评测方法  48
  5.2 测试结果及分析  48-52
    5.2.1 人名测试结果及分析  48-50
    5.2.2 地名测试结果及分析  50
    5.2.3 机构名测试结果及分析  50-52
  5.3 本章小结  52-53
第六章总结与展望  53-54
参考文献  54-57
攻读硕士学位期间参加的项目  57
攻读硕士学位期间发表的论文  57-58
致谢  58

基于N-gram模型的哈萨克语实体名识别方法研究

内容摘要

全文目录

相似论文