学位论文 > 优秀研究生学位论文题录展示
基于依存语法的统计机器翻译研究
作 者: 张育
导 师: 周国栋
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 统计机器翻译 依存语法 翻译模型 模板选择 粘贴模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 13次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着统计机器翻译技术的发展,基于句法的统计机器翻译逐渐成为研究热点。同传统的基于短语的方法相比,基于句法的方法在翻译过程中能够利用更多的语言学知识,可以更好的指导翻译过程。本文在依存句法分析的基础上,构建了一个依存语法翻译模型,设计并实现了一个完整的统计机器翻译系统,并在此基础上进行了改进。首先,本文构建了一个依存子图(treelet)到串的统计机器翻译模型。该模型的基本单元是对齐模板,其中源语言端是依存子图,目标语言端是串,两端允许变量泛化,对齐模板可以按照一定的约束条件从训练语料中自动获取。在翻译模型的基础上,设计并实现了基准系统。其次,本文对模板选择问题和未覆盖节点译文操作问题进行了研究。针对模板选择问题,采用了两种选择策略,一是为翻译模型增加模板判别特征函数,如长度不一致惩罚,变量数目惩罚等特征,利用最小错误率训练获得权重;二是为对齐模板增加词性信息标记,从而使模板获得一定语言学知识的约束。模板选择实验结果表明,仅添加模板判别特征可以提高BLEU值,而仅增加词性信息标记并没有提高系统的性能,但是利用词性标记将模板库分层后,优先匹配词性标记模板,可使BLEU值有所提高。针对未覆盖节点的译文操作问题,本文构建了一个基于统计的粘贴模型。首先从训练语料中抽取粘贴实例,然后抽取了首词、组合等特征用于最大熵建模,实验结果表明,粘贴模型可以有效的控制未覆盖节点译文的顺序。在NIST MT 2005测试集上,同时应用模板选择和粘贴模型,保留未登录词的系统的BLEU值比Moses高0.0021,删除未登录词后BLEU值可以达到0.2540,证明我们的改进方法是比较有效的。
|
全文目录
中文摘要 4-5 Abstract 5-9 第一章 绪论 9-13 1.1 研究背景和意义 9-11 1.2 本文主要工作 11-12 1.3 论文组织结构 12-13 第二章 统计机器翻译简介 13-31 2.1 引言 13 2.2 基于词的翻译模型 13-15 2.3 基于短语的翻译模型 15-17 2.4 基于句法的翻译模型 17-27 2.4.1 形式化基于句法的翻译模型 18-21 2.4.2 语言学基于句法的翻译模型 21-27 2.4.2.1 串输入模型 21-22 2.4.2.2 树输入模型 22-27 2.5 翻译自动评测 27-29 2.5.1 BLEU 评测标准 28-29 2.5.2 NIST 评测标准 29 2.6 本章小结 29-31 第三章 基于依存语法的统计机器翻译 31-52 3.1 引言 31-32 3.2 模型 32-36 3.2.1 对齐模板定义 32-34 3.2.2 形式化定义 34-35 3.2.3 基本特征函数 35-36 3.3 翻译模型构建 36-45 3.3.1 模板抽取 36-43 3.3.1.1 crossed 节点定义 37-41 3.3.1.2 抽取算法 41-42 3.3.1.3 限制策略 42-43 3.3.2 概率计算 43-45 3.4 解码 45-51 3.4.1 解码算法 45-47 3.4.2 模板匹配 47 3.4.3 替换和粘贴操作 47-49 3.4.4 剪枝策略 49 3.4.5 集成短语 49-51 3.5 本章小结 51-52 第四章 模板选择策略和粘贴模型的应用 52-63 4.1 改进的模板选择策略 52-55 4.1.1 增强的模板特征函数 52-53 4.1.2 词性标记的合理使用 53-55 4.2 粘贴模型 55-62 4.2.1 粘贴实例的获取 56-60 4.2.2 特征的获取 60-61 4.2.3 粘贴模型构建 61-62 4.3 本章小结 62-63 第五章 实验结果与分析 63-76 5.1 系统架构 63-64 5.2 实验 64-74 5.2.1 基准系统实验和分析 64-67 5.2.2 模板选择实验和分析 67-68 5.2.3 粘贴模型实验和分析 68-70 5.2.4 对比实验和分析 70-74 5.3 本章小结 74-76 第六章 总结与展望 76-78 6.1 总结 76-77 6.2 展望 77-78 参考文献 78-83 攻读硕士学位期间发表(录用)的论文 83 攻读硕士学位期间参与的项目 83-84 致谢 84-86
|
相似论文
- 面向统计机器翻译的解码算法的研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- An Integrated Model for C-e Government Website Translation,H315.9
- 基于语义分析的汉语短语识别方法研究,TP391.43
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
- DNA计算中若干理论的研究,TP301.6
- 基于依存树库的英语名词句法研究,H314.3
- 数字图像修复算法的研究,TP391.41
- 利用DNA长度编码实现分子计算,Q523
- 算术运算的生物计算方法,TP301.6
- 无线传感器网络最小集合覆盖问题的DNA算法研究,TP301.6
- 一类图的控制集问题的DNA算法研究,O157.5
- 中文文本多粒度情感分类计算的研究,TP391.1
- 基于TTA的ASIP专用指令自动扩展,TP368.11
- 多级分离技术及若干问题的DNA算法研究,TP301.6
- 工作记忆内容对选择性注意的导向作用,B842.3
- 若干问题的DNA计算算法研究,TP301.6
- 基于DNA计算模型的几个NP完全问题的研究,TP301.6
- 基于DNA计算的聚类算法研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|