学位论文 > 优秀研究生学位论文题录展示
汉文—维吾尔文双语语料库构建的实验性研究
作 者: 热西旦
导 师: 吐尔根·依布拉音
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 双语语料库 机器翻译 段落对齐 句子对齐
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 92次
引 用: 1次
阅 读: 论文下载
内容摘要
双语语料库在基于实例的机器翻译,翻译知识的获取,双语词典的建立,词义消歧等领域有着重要的应用价值。大规模双语语料库的建设是进行基于语料库研究的基础。如何通过现有的互译文本来建立大规模的双语语料库,对双语互译文本的加工成为至关重要的问题。双语对齐技术是加工双语文本的核心。本文以汉文-维吾尔文平行语料库及其对齐技术在面向政府文献和科技文献的汉维机器翻译中的应用为背景,介绍了汉维双语语料库的建设方法,讨论了汉维双语语料库中句子对齐技术和段落对齐技术。首先本文对实验语料进行各种对齐技术,统计出每一种算法的对齐效果,最后总结基于词典翻译的方法是汉维句子对齐加工过程中效率较高的对齐方法。然后本文考虑到基于回车符的方法在实际应用中的缺陷,提出了一种基于数字信息的分段对齐方法,并根据需要,将上述两种方法相结合,形成了一种多层次分段对齐方法,进一步提高了句子对齐的运行效率和正确率。
|
全文目录
摘要 2-3 ABSTRACT 3-6 第一章 引言 6-13 1.1 本文研究的背景和意义 6-10 1.1.1 研究背景 6-8 1.1.2 研究意义 8-10 1.2 相关研究综述 10-11 1.3 本文的主要研究内容和组织 11-13 第二章 汉维双语语料库总体结构 13-24 2.1 语料库文本的收集整理 14-16 2.2 语料库文本的加工 16-17 2.3 句子对齐技术描述 17-18 2.4 句子对齐的意义 18 2.5 句子对齐方法介绍 18-21 2.5.1 基于长度的句子对齐方法 19-20 2.5.2 基于词典译文的句子对齐方法 20 2.5.3 长度和词汇信息相结合的句子对齐方法 20-21 2.6 对齐的评价方法 21-23 2.7 本章小结 23-24 第三章 汉维双语段落对齐和句子对齐定义 24-35 3.1 双语句子对齐的主要难点 24-25 3.2 句子对齐问题的描述 25-26 3.3 多层次分段对齐方法 26-32 3.3.1 分段对齐的必要性 27-28 3.3.2 基于回车符的分段对齐方法 28-29 3.3.3 基于数字信息的分段对齐方法 29 3.3.4 基本思路 29-32 3.4 句子对齐的形式化定义 32-34 3.5 本章小结 34-35 第四章 汉维句子对齐算法思想 35-45 4.1 汉维平行语料长度关系统计 35-37 4.2 基于长度的句子对齐方法 37-39 4.3 基于词典译文的句子对齐方法 39-43 4.3.1 基于词典译文方法的算法设计 39-40 4.3.2 词汇互译率计算方法 40-41 4.3.3 基于词典译文的句子对齐评价函数 41-42 4.3.4 词汇覆盖率 42-43 4.4 句子对齐后处理思路 43-44 4.5 本章小节 44-45 第五章 主要实现过程和实验结果 45-56 5.1 实验准备 45 5.2 主要数据结构 45-47 5.3 预处理模块的主要工作 47-49 5.4 多层次分段对齐模块的具体实现 49-50 5.5 基于词典译文的句子对齐模块的具体实现 50-53 5.6 实验结果 53-55 5.6.1 多层次分段对齐实验 53 5.6.2 基于长度的汉维句子对齐实验 53-54 5.6.3 基于词典译文的汉维句子对齐实验 54-55 5.7 本章小节 55-56 第六章 结论和展望 56-58 6.1 本文的工作总结 56 6.2 今后的工作 56-58 参考文献 58-61 在学期间发表论文 61-62 致谢 62-63
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 基于语言学知识的机器翻译自动评价研究,TP391.2
- 基于英汉树库的机器翻译研究,H315.9
- 基于WEB的双语句对齐语料的获取和过滤,TP391.1
- 基于Web论文库的学术领域双语资源研究,TP391.1
- 双语辅助翻译搜索引擎若干问题研究,TP391.3
- Web双语平行语料自动获取及其在统计机器翻译中的应用,TP391.2
- 对我国几种机器翻译软件译文质量的测评,H085
- IHSMTS中汉英双语句子对齐机制的设计与实现,TP391.2
- 多语种双语对齐平台的设计与实现,TP311.52
- 汉维双语语料库中句子对齐技术的研究,TP391.1
- 基于英汉双语语料库的英汉双语Ontology的建立与管理,TP392
- EBMT系统中翻译模板的抽取与匹配,TP391.2
- 基于短语的对数线性模型的统计机器翻译方法与系统实现,TP391.2
- 关于层次短语翻译模型调序问题的研究,TP391.2
- “V_双+V_双”的语义关系类型及其自动识别,H13
- 机器翻译,H085
- 基于标志词的汉英机器翻译的研究,TP391.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|