学位论文 > 优秀研究生学位论文题录展示
汉哈萨克双语平行语料库对齐方法研究
作 者: 努尔古丽·艾子木把
导 师: 孙铁利
学 校: 东北师范大学
专 业: 计算机应用技术
关键词: 汉哈萨克双语语料库 机器翻译 段落对齐 句子对齐 词干切分
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 26次
引 用: 0次
阅 读: 论文下载
内容摘要
随着自然语音处理技术,特别是机器翻译技术的发展和进步,对双语语料库方法的研究日益引人瞩目。高质量的双语语料库作为机器翻译、多语言词典建设、语义分析的支撑作用明显,因此如何搭建汉哈萨克双语语料库成为哈萨克语自然语言处理领域中的重要问题。双语对齐技术是汉哈萨克双语平行语料库建设中双语文本加工的重要技术。本文重点进行汉哈萨克双语平行语料库建设方法的研究,并探索和改进汉哈萨克双语篇章、段落和句子对齐方法。本文首先阐述汉语和哈萨克语双语语料库建设及各种对齐技术,探讨在长度的对齐技术的基础上,寻求双语词典信息的对齐方法以解决汉哈萨克双语各层次对齐问题。其次,在词干切分的基础上,研究如何充分利用各种标点符号和数字信息以达到进一步提升汉哈萨克双语句子对齐的效率和准确性。最后,以《中华人民共和国保险法》作为双语语料库对本文提出的方法进行相关实验,以验证方法的有效性。实验表明,本文提出的方法效果明显,提高了对齐的准确率和其他指标。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 引言 8-12 1.1 研究背景 8-10 1.2 研究意义 10 1.3 相关研究综述 10-11 1.4 论文结构 11-12 第二章 语料库与双语对齐方法 12-21 2.1 哈萨克语简介 12 2.2 哈萨克文编码 12-13 2.3 单语语料库 13-14 2.4 双语平行语料库 14-16 2.5 汉哈萨克双语文本预处理 16-18 2.6 语料库词汇词性标注和词干处理和语料库加工 18-19 2.7 句子对齐方法及其性能评价 19-20 2.8 本章小结 20-21 第三章 汉哈萨克段落对齐和句子对齐 21-29 3.1 多层次分段对齐方法 21-24 3.1.1 分段对齐的必要性 21-22 3.1.2 段落对齐方法 22-23 3.1.3 基于数字信息的分段对齐方法 23-24 3.1.4 多层次分段对齐算法 24 3.2 不同语系语言句子对齐中存在的问题 24-26 3.3 汉哈萨克句子边界识别问题 26 3.4 汉哈萨克双语句子对齐的形式化定义 26-28 3.5 本章小结 28-29 第四章 汉哈萨克双语句子对齐技术 29-39 4.1 汉哈萨克双语语料基于长度关系的分析 29-31 4.2 基于长度的句子对齐技术 31-32 4.3 基于词典的汉哈萨克双语句子对齐方法 32-37 4.3.1 基于汉哈萨克双语词典的句子对齐算法 33-35 4.3.2 基于词汇长度信息的词汇互译率 35-36 4.3.3 基于词典的句子对齐方法评价 36-37 4.3.4 词汇覆盖率 37 4.4 本章小结 37-39 第五章 汉哈萨克双语文本的句子对齐实验与分析 39-44 5.1 语料库与实验环境 39 5.2 系统功能的定义 39-40 5.3 实验结果分析 40-43 5.3.1 分段对齐分析 40 5.3.2 基于长度的句子对齐实验结果 40-42 5.3.3 基于双语词典句子对齐方法的实验 42 5.3.4 基于长度信息的句子对齐和基于双语词典的句子对齐方法对比 42-43 5.4 本章小结 43-44 第六章 总结和展望 44-45 6.1 总结 44 6.2 下一步的工作 44-45 参考文献 45-47 致谢 47
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 英汉命名实体翻译方法研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 基于语料库的机器翻译可行性分析,H085
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于语言学知识的机器翻译自动评价研究,TP391.2
- 计算语言学领域英文辅助写作系统,TP391.1
- 面向特定领域的统计机器翻译研究与应用,TP391.2
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于词缀特征的汉蒙统计机器翻译系统,TP391.2
- 基于混淆网络的机器翻译系统融合研究,TP391.2
- 汉蒙词法分析及其在统计机器翻译中的应用,TP391.2
- 大型遗留系统全球化的自动化方法研究,TP311.52
- 基于WEB的双语翻译对抽取方法研究,TP391.2
- 基于短语的统计机器翻译的研究,TP391.2
- 汉英机器翻译中趋向动词的处理,H315.9
- 基于英汉树库的机器翻译研究,H315.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|