学位论文 > 优秀研究生学位论文题录展示
基于国际标准编码的蒙古文词切分系统构建
作 者: 阿日木扎
导 师: 林民
学 校: 内蒙古师范大学
专 业: 计算机应用技术
关键词: 蒙古文 国际编码 词切分 词根 词干 词缀
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
蒙古族历史与文化源远流长,蒙古族的语言文字是蒙古族社会交际的工具。在当今信息化、全球化大背景下,蒙古语言文字的信息化对促进蒙古语言文字的学习、使用、研究和发展具有重要意义。蒙古文词切分是蒙古文词法分析、机器翻译、信息检索、文本分类、篇章处理等众多工作的基础和前提。由于历史、地域、文化等诸多原因,导致多种蒙古文编码共存,从而使得大量信息资源无法共享。蒙古文国际标准编码的问世结束了原来的多种蒙古文编码在应用中各自为政的历史,但由于国际标准编码为基础的研究才刚刚起步,大量的基础性的工作急需启动和研究,因此,本文围绕蒙古文切词问题,开展了以下工作:首先,本研究整理和校对了110万词的国际标准编码的蒙古文语料及文档资料库,这些资料可作为蒙古文信息处理后续工作的基础性资料。其次,深入研究了蒙古文构词法的特点,并提出考虑了语境关系和词内各成分高耦合度的词切分模型。同时深入研究了蒙古文构词法的特点及蒙古文语境关系,并提出了相应的机器学习方法以提高系统切分蒙古文词的精度和速度。此外,对基于国际标准编码的蒙古文词切分模型进行了分析和比较研究,提出了15种蒙古文词切分方法的评价方法和有效性计量公式。另外,给出了基于国际标准编码的蒙古文词切分系统的设计方法和整体框架。最后,完成了基于国际标准编码的蒙古文词切分软件系统和结果分析。基于蒙古文国际标准编码的蒙古文词切分系统不仅把蒙古文信息处理工作引入到国际标准编码为基础的研究领域,同时也为蒙古文信息处理工作提供了标准化的蒙古文资源,因此,本文的工作对促进蒙古文信息化工作具有一定的意义。
|
全文目录
中文摘要 4-6 ABSTRACT 6-8 目录 8-10 第1章 绪论 10-15 1.1 研究背景 10 1.2 研究意义 10-11 1.3 国内外研究现状 11-13 1.3.1 国内外关于词切分方法的研究状况 11 1.3.2 蒙古文信息处理研究概况 11 1.3.3 蒙古文词切分方法的研究进展 11-13 1.4 研究内容与论文组织结构 13-15 1.4.1 本文的主要工作 13 1.4.2 论文的组织结构 13-15 第2章 蒙古语国际标准编码及其信息化 15-20 2.1 蒙古语及其国际标准编码 15-18 2.1.1 蒙古文词语 15-16 2.1.2 蒙古语词根、词干和词缀 16 2.1.3 蒙古文正字法 16-17 2.1.4 蒙古语国际标准编码 17-18 2.2 基于国际标准编码的蒙古文语料库的构建 18-20 2.2.1 语料库的建设原则 18 2.2.2 蒙古文词切分系统语料的选择与构建 18-20 第3章 基于国际标准编码的蒙古文词切分模型及其分析 20-26 3.1 蒙古文词切分模型介绍 20-24 3.1.1 统计语言模型基本原理 20-21 3.1.2 主要的统计语言模型 21-23 3.1.3 条件随机场模型 23-24 3.2 蒙古文词切分模型的研究与分析 24-26 第4章 蒙古文词切分方法及其词切分系统设计 26-32 4.1 基于国际标准编码的蒙古文词切分方法的设计 26-28 4.1.1 基本的蒙古文词切分方法 26-27 4.1.2 组合型蒙古文词切分方法 27-28 4.2 基于国际标准编码的蒙古文词切分方法的比较研究 28-30 4.2.1 基于国际标准编码的蒙古文词切分方法的评价标准 28 4.2.2 基于国际标准编码的蒙古文词切分评价方法 28-29 4.2.3 基于国际标准编码的蒙古文词切分的综合评价方法 29-30 4.3 基于国际标准编码的蒙古文词切分系统设计 30-32 4.3.1 系统总流程 30-31 4.3.2 系统设计说明 31-32 第5章 蒙古文词切分系统的实现 32-47 5.1 词切分系统实验软硬件环境 32 5.2 词切分系统工作详述 32-42 5.2.1 语料的标准化处理 32-33 5.2.2 语料的预处理过程 33-35 5.2.3 词切分处理过程 35-42 5.3 词切分实验 42-44 5.4 蒙古文词切分系统实验结果的综合分析 44-47 第6章 总结与展望 47-49 6.1 总结 47 6.2 展望 47-49 参考文献 49-52 攻读硕士学位间发表的论文及参加的科研项目 52-53 致谢 53-54 附录 54-59
|
相似论文
- 汉语人称词缀、类词缀的对外汉语教学研究,H195
- 《宋书》词缀研究,H141
- 现代汉语词缀研究简论,H146
- 现代汉语类词缀考察,H195
- 维汉大学生中文词切分的眼动研究,B842.3
- 汉语与印尼语介词“给”的差异分析及印尼学生习得汉语介词“给”偏误研究,H195
- 权力操控下的蒙古文翻译,H212
- 淮南方言形容词词缀研究,H17
- 中国上市公司CEO致辞初步研究,F279.2
- 印尼语词缀研究,H631.2
- 英汉类词缀探究,H319
- 英汉否定表达比较及在对外汉语教学中的应用,H195
- 现代汉语类词缀研究,H146
- 英语一类、二类词缀与词干的相互制约研究,H313
- 英语强势对现代汉语影响的欧化表征之多维研究,H109.4
- 受英语影响产生的类词缀,H136
- 莱芜方言词缀研究,H172.1
- 现代汉语新兴指人“类词缀”研究,H136
- 汉语名源动词生成的句法—语义研究,H146
- 现代汉语类词缀认知研究,H136
- 高中生英语派生词缀学习研究,G633.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|