学位论文 > 优秀研究生学位论文题录展示
统计机器翻译中层次短语翻译模型的研究与实现
作 者: 许冲
导 师: 赵铁军
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 层次短语翻译模型 解码器 句法分析 软约束 最大熵模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 116次
引 用: 0次
阅 读: 论文下载
内容摘要
随着日益频繁的国际交流和互联网蓬勃发展,不同语言的之间的沟通也越来越重要,由此推动机器翻译的迅速发展。近十年来,统计机器翻译取得了很大的成功,成为了机器翻译的主流方法。基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术。而基于短语的翻译模型不能很好的处理长距离的调序问题,很多学者开始把语言学信息引入到翻译模型,基于句法的翻译模型成为了研究热点。本文主要针对层次短语翻译模型进行了研究,并且通过句法信息的指导,使翻译的质量得到显著的提升。首先,本文对基于同步上下文无关文法的层次短语翻译模型进行了全面的阐述,介绍了上下文无关文法的相关理论,实现了层次短语模型的训练过程,包括规则抽取和规则打分,并用实验验证层次短语规则抽取的的限制对翻译性能的影响;本文还实现了层次短语模型的解码器,介绍了解码器中使用的数据结构和高效的算法,通过对层次短语类型的分类分析,得出层次短语规则的优越性,并与基于短语的系统Moses进行了对比,分析对比这两种模型的内在性质。其次,本文在层次短语翻译模型的基础上加入了语言学信息。介绍了基于句法的翻译模型和树转录机的相关理论;为了加入句法信息对解码过程的指导,本文先对源语言进行句法分析,从而得到翻译规则满足句法的一些信息,然后用软约束的方法加入到层次短语模型,运用最小错误率训练重新调整参数,并用大量的实验来验证句法信息对系统性能的作用。最后,本文介绍了基于最大熵的规则约束模型。介绍了最大熵模型的原理,框架和优点;如何运用最大熵来建立规则约束模型,我们在训练的时候得到具有语言学信息的样本,然后用最大熵模型训练出规则约束模型,和其它模型一样纳到对数线性模型的框架内,并且用实验验证了该模型的有效性。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-19 1.1 本文研究的目的和意义 9-10 1.2 统计机器翻译 10-18 1.2.1 基于词的统计机器翻译模型 12-14 1.2.2 基于短语的统计机器翻译模型 14-15 1.2.3 基于句法的统计机器翻译模型 15-17 1.2.4 统计机器翻译方法总结 17-18 1.3 论文的主要内容 18-19 第2章 层次短语翻译模型 19-30 2.1 引言 19-21 2.2 层次短语翻译模型 21-24 2.2.1 同步上下文无关文法 21-22 2.2.2 模型定义 22-23 2.2.3 特征 23-24 2.3 训练 24-25 2.3.1 层次短语规则抽取 24-25 2.3.2 层次短语规则打分 25 2.4 实验与分析 25-29 2.4.1 实验设置与语料 25-26 2.4.2 实验结果与分析 26-29 2.5 本章小结 29-30 第3章 层次短语解码器的实现与分析 30-42 3.1 引言 30 3.2 解码相关理论 30-36 3.2.1 基本解码算法 30-32 3.2.2 柱搜索与剪枝策略 32-33 3.2.3 生成N-best 列表 33-35 3.2.4 立方体剪枝 35-36 3.3 层次短语系统的具体实现 36-39 3.4 实验结果与分析 39-41 3.5 本章小结 41-42 第4章 融合语言学信息的层次短语模型 42-53 4.1 引言 42 4.2 具有语言学信息的翻译模型 42-46 4.2.1 基于句法的翻译模型概要 42-43 4.2.2 树转录文法 43-46 4.3 句法信息对解码的指导 46-49 4.3.1 句法软约束 46-47 4.3.2 加入句法信息的改进方法 47-49 4.4 实验与分析 49-52 4.5 本章小结 52-53 第5章 基于最大熵的规则约束模型 53-61 5.1 引言 53 5.2 最大熵模型 53-57 5.2.1 引言 53-54 5.2.2 最大熵模型形式化描述 54-55 5.2.3 最大熵模型框架 55-56 5.2.4 最大熵模型的优点 56-57 5.3 规则约束模型 57-60 5.3.1 模型 57 5.3.2 特征选择 57-59 5.3.3 融合最大熵模型到层次短语模型 59-60 5.4 实验结果与分析 60 5.5 本章小结 60-61 结论 61-62 参考文献 62-68 致谢 68
|
相似论文
- AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
- 基于句法特征的代词消解方法研究,TP391.1
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 面向统计机器翻译的解码算法的研究,TP391.2
- 绝味食品公司预算约束力软化问题研究,F275
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
- 基于自学习的社会关系抽取的研究,TP391.1
- 语义网自动构建中句法分析的研究,TP391.1
- 基于空间句法分析的城市地价与合理用地结构关系研究,F224;TU984.113
- 政治联系、预算软约束与公司绩效,F276.6;F224
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于语义分析的汉语短语识别方法研究,TP391.43
- 基于拼音标注的中文分词算法研究,TP391.1
- H.264帧内预测解码器的优化与硬件实现,TN919.81
- 数字音频码流分析系统研究,TN911.7
- 最大熵模型的语义句法分析在问答系统中的应用研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|