学位论文 > 优秀研究生学位论文题录展示
基于N-gram模型的哈萨克语实体名识别方法研究
作 者: 冯鲸华
导 师: 古丽拉·阿东别克
学 校: 新疆大学
专 业: 计算机软件与理论
关键词: 实体名识别 N-gram模型 哈萨克语
分类号: TP391.43
类 型: 硕士论文
年 份: 2010年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
实体名是一个文本中最基本的信息元素,它是正确理解一篇文章的基础,实体名识别对机器翻译、文本检索等都有着重要的指示作用。目前,研究人员在英语和汉语实体名识别两个方面都取得了较多的研究成果,然而哈萨克语实体名识别还处于研究阶段,因此研究哈萨克语实体名识别具有重大的理论和现实意义。本文分析了国内外在实体名识别方面所做的一些研究工作,结合哈萨克语实体名的特点,采用了基于规则和统计相结合的方法,提出一种基于N-gram语言模型的哈萨克语可信度计算方法进行哈萨克语实体名识别研究,设计并实现了一个哈萨克语实体名识别系统。该系统能较好地完成对哈萨克语实体名的识别,使人们能快速地从文本中获取有效的信息,具有一定的应用价值。最后,本文对一个月的《新疆日报》哈语版语料进行了测试,测试结果表明该系统对哈萨克语实体名的识别效果比较满意,其准确率、召回率和F值都达到了60%以上。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-12 1.1 课题来源 7 1.2 研究背景与意义 7-8 1.3 国内外研究现状 8-11 1.4 本文主要研究内容与组织结构 11-12 第二章 实体名识别综述 12-20 2.1 实体名识别概述 12-13 2.2 实体名识别方法 13-16 2.2.1 基于规则的方法 13-14 2.2.2 基于统计的方法 14-15 2.2.3 规则与统计相结合的方法 15-16 2.3 实体名识别系统介绍 16-19 2.4 本章小结 19-20 第三章 基于N-gram 模型的哈萨克语实体名识别 20-29 3.1 哈萨克语实体名特征 20-22 3.1.1 哈萨克语人名特征 20-21 3.1.2 哈萨克语地名特征 21 3.1.3 哈萨克语机构名特征 21-22 3.2 基于N-gram 模型的哈萨克语实体名识别 22-28 3.2.1 N-gram 语言模型 22-23 3.2.2 参数N 的选择及最大似然估计 23-25 3.2.3 数据稀疏与平滑算法 25-28 3.2.4 基于N-gram 模型的实体名可信度计算 28 3.3 本章小结 28-29 第四章 哈萨克语实体名识别系统的研究与实现 29-48 4.1 开发环境概述 29 4.2 文本语料预处理 29 4.3 实体名识别系统结构 29-31 4.4 哈萨克语人名识别 31-38 4.4.1 人名识别流程 31 4.4.2 人名特征提取 31-33 4.4.3 人名识别可信度计算 33 4.4.4 人名识别所需规则库的构建 33-35 4.4.5 人名识别数据库的设计 35-36 4.4.6 人名识别算法分析与实现 36-38 4.5 哈萨克语地名与机构名识别 38-47 4.5.1 地名与机构名识别流程 38 4.5.2 地名与机构名特征提取 38-41 4.5.3 地名与机构名识别可信度计算 41 4.5.4 地名与机构名识别所需规则库的构建 41-43 4.5.5 地名与机构名识别数据库的设计 43-44 4.5.6 地名与机构名识别算法分析与实现 44-47 4.6 本章小结 47-48 第五章 测试结果及分析 48-53 5.1 系统评测方法 48 5.2 测试结果及分析 48-52 5.2.1 人名测试结果及分析 48-50 5.2.2 地名测试结果及分析 50 5.2.3 机构名测试结果及分析 50-52 5.3 本章小结 52-53 第六章 总结与展望 53-54 参考文献 54-57 攻读硕士学位期间参加的项目 57 攻读硕士学位期间发表的论文 57-58 致谢 58
|
相似论文
- 现代锡伯语 维吾尔语 哈萨克语的共有词考,H2
- 新疆电视台哈萨克语自办栏目研究,G222
- 新疆地州级电视台哈萨克语频道自办栏目研究,G222.3
- 哈萨克语中的汉语借词研究,H236
- 哈萨克语直接宾语研究,H236
- 汉语形容词重叠结构在哈萨克语中的对应表达及其教学,H236
- 基于音节统计语言模型蒙古文词汇分析校正器的设计与实现,TP391.1
- 乌太波衣达克和他的《医药志》,R-09
- 初级阶段哈萨克斯坦留学生汉语量词运用偏误分析,H195
- N-gram技术在中文词法分析中的应用研究,TP391.1
- 基于最大熵的哈萨克语基本名词短语识别研究,TP391.43
- 基于HMM的哈萨克语词性标注研究,TP391.1
- 基于N-gram模型和句法模型的连续中国手语识别方法研究,TP391.41
- 哈萨克语俄语借词的语音及拼写规则研究,H35
- 基于统计语言模型的中文自动文本分类系统,TP391.1
- 基于统计的搜索引擎中文输入纠错技术研究,TP391.3
- 基于语料库的哈萨克文统计研究,TP391.1
- 基于高阶神经网络的文字识别算法研究,TP391.43
- 基于过程神经元网络的脱机手写体汉字识别方法研究,TP391.43
- 基于二叉树多层分类SVM的脱机手写体汉字识别方法研究,TP391.43
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|