学位论文 > 优秀研究生学位论文题录展示
英汉平行语料库句子级对齐研究及其在机器翻译中的应用
作 者: 赵小曼
导 师: 王修力
学 校: 安徽大学
专 业: 汉语言文字
关键词: 平行语料库 句子级对齐 机器翻译
分类号: H315.9
类 型: 硕士论文
年 份: 2010年
下 载: 357次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术的提高和人们日益增长的沟通需要,高质量的机器翻译系统成为人们迫切需要解决的问题。20世纪90年代以来,Mona Baker等人开始将语料库语言学应用于翻译研究,从此开启双语语料库的研究历史。目前平行语料库的研究已经成为语料库研究的一个重点,随着从事语言研究和机器翻译研究的学者对平行语料库重要性的逐渐认识,国内外很多研究机构都致力于平行语料库的建设。基于实例的机器翻译系统的实现基础即是高质量的对齐平行语料库。只有实现了平行语料语句的高精度匹配,基于实例的机器翻译系统才可能得以实现。本文在前人研究的基础上,主要对英汉平行双语语料库中句子级别的自动对齐技术及基于实例的机器翻译系统中的语料库构建做出一定的有益尝试。语料库里的源语和目标语实例要按照句子级别的翻译单位一一对齐,并确保对齐质量,这是一个以自动机器翻译为目标的平行语料库具备实用性的首要条件;而语料库中对齐语料的扩充和更新问题,是其长期发挥效用的基础保障,是一个以自动机器翻译为目标的平行语料库具备实用性的必要条件。本文即通过自行建立小型英汉平行语料库的实践,建立应用于机器翻译的平行语料库语料的整理、加工规范,并通过机器自动对齐结果和人工手动对齐结果的对比,对建库过程中遇到的问题进行思考,包括断句标识的选用问题、多对多类型语句的对齐匹配问题、基于互联网语料的机器翻译中平行语料库的构建规范问题等。并带着这些问题进行了一系列的测试,提出相应的解决办法:一、使用标点符号作为句子层级对齐工作的重要辅助信息。由于基于长度的对齐方法无法正确识别成对符号,因此我们将断句标识改为只有:句号、分号、问号、感叹号四种,而不再采用冒号、双引号、单引号、括号作为句子边界。二、引入锚点信息辅助对齐工作。由于从互联网抓取的平行语料中,专名结构、数字、日期在文本中出现的频率相当高,而这些信息相对一篇文章的内部,有相对唯一并较为确定的位置和顺序,因此,将它们作为锚点信息来辅助对齐工作,可以收到很好的效果,有效的提高对齐结果的准确率。三、分步匹配。在一对多、多对一的匹配类型中,只有通过分步匹配把该组对齐单位的配对模式从一组一对多模式改为两组甚至三组一对一模式,以减少对齐错误的蔓延。即是指在这种情况下,将一个中文句子重复的多次与两个或三个英文句子相对齐。这虽然牺牲了对齐结果的准确率,但是可以有效的减少其错误蔓延。四、应用于机器翻译的平行语料库的系统构建问题。在建立基于互联网语料实例的机器翻译系统的过程中,建议选取页面格式简单、译文质量较好的网站,比如高校论文数据库、期刊库、中英文翻译作品库等。五、尝试引入“专家控制系统”提高译文质量。想要达到翻译的最高境界—“信、达、雅”,我们必须在应用于机器翻译的语料库构建过程中,引入世界知识库。可以考虑智能控制学科中关于“专家控制系统”模型的构建方式,吸收当代翻译家的思维模式和翻译技巧,建立协同式专家系统,更好的提高译文质量。
|
全文目录
摘要 3-5 Abstract 5-9 1. 引言 9-17 1.1 语料库语言学概述 9-13 1.1.1 语料库概念 9 1.1.2 语料库类型 9-10 1.1.3 语料库语言学发展历程及成果 10-11 1.1.4 我国语料库建设的基本情况 11-13 1.2 双语平行语料库 13-15 1.2.1 平行语料库概念 13-14 1.2.2 语平行语料库研究 14 1.2.3 双语对齐技术 14-15 1.3 本课题研究的主要内容、方法及意义 15-17 1.3.1 主要内容 15-16 1.3.2 研究方法 16 1.3.3 实践意义 16-17 2.小型英汉平行语料库的建立 17-34 2.1 语料库建立规范 17-19 2.1.1 语料整理规范 17 2.1.2 语料加工规范 17-18 2.1.3 样例 18-19 2.2 生语料搜集 19-24 2.2.1 生语料来源及分类 19-22 2.2.2 生语料预处理 22-24 2.3 句子级对齐 24-34 2.3.1 对齐工具选取及自动对齐流程 24-25 2.3.2 人工对齐流程 25-29 2.3.3 对齐结果分析 29-32 2.3.4 改进办法 32-34 3. 平行语料库在机器翻译中的应用 34-40 3.1 机器翻译 34-36 3.1.1 机器翻译概念及分类 34 3.1.2 机器翻译发展历程 34-36 3.2 基于实例的机器翻译研究现状 36-37 3.3 应用于机器翻译的平行语料库系统构建问题 37-40 4. 总结与展望 40-42 4.1 总结 40-41 4.2 展望 41-42 参考文献 42-45 致谢 45-46 攻读学位期间发表的学术论文目录 46
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 基于语料库的莎士比亚戏剧汉译本中Lord人际意义显化研究,H315.9
- 基于潜在语义对偶空间的跨语言文本分类研究,TP391.1
- 面向特定领域的统计机器翻译研究与应用,TP391.2
- 跨语言词汇语义相似度计算研究,TP391.1
- 基于平行语料库的翻译教学与翻译能力的提高,H059
- 基于潜在中间语义的多语言信息检索研究,TP391.3
- 基于文本挖掘的翻译知识自动获取研究,TP391.1
- 基于语料库的楚辞英译本对比研究,H315.9
- 基于语料库的情态动词英汉翻译研究,H315.9
- 基于语料库的军事装备术语的翻译研究,H315.9
- 《儒林外史》中带标记的被动句英译研究,H315.9
- 专用汉英平行语料库在新疆外宣翻译中的应用,H315.9
- 政论在句子和词汇层面的翻译特征研究,H059
- 基于语料库的莎士比亚戏剧汉译本逻辑关系显化研究,I046
- 基于语料库的莎士比亚戏剧汉译本中情态的人际意义再现研究,I046
- 汉英文本对应单位转换分析—语料库驱动研究,H09
- 专用平行语料库在提高学员军事翻译能力中的应用,H059
- 可比较语料库的研究与构建,TP391.1
中图分类: > 语言、文字 > 常用外国语 > 英语 > 翻译
© 2012 www.xueweilunwen.com
|