学位论文 > 优秀研究生学位论文题录展示

统计机器翻译中结构转换技术的研究

作 者: 崔凌云
导 师: 赵铁军
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 机器翻译 结构转换 参数训练 元结构 语言模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2008年
下 载: 63次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在统计机器翻译领域,基于短语的方法是最为成熟和稳定的方法,但是目前已经很难再有改进的余地。对于语料库中曾经出现过的短语,短语模型可以给出比较准确的翻译,这种翻译包括译文的选择词和短语内部语序的调整。但对于短语之间的语序调整,以及无法匹配的短语,这种方法难以给出有效的解决办法。因为这种方法完全没有利用深层次的句法结构信息,更不用说复杂的语义等方面的知识了。为此,人们寄希望于引入更深层次的语言结构来改进现有方法的性能。一种最直接的想法,就是引入句法结构,在句法结构的基础上建立统计机器翻译模型。本文提出了一个从源语言元结构组到目标语言元结构组的结构转换模型。从大规模的句对齐的双语句法树中,根据词汇对齐信息抽取源语言的元结构组和目标语言的元结构组的互译对,计算翻译概率。分析非线性语言模型与线性序列语言模型的异同,设计并实现了基于元结构的非线性语言模型,以此来控制元结构组的调序。采用最小错误率训练算法来训练对数线性模型中的参数,最小错误率将解码评分标准和自动评测标准BLEU结合起来,将多维优化问题分解为多次一维优化,将求解问题从连续空间转换到有限的离散空间。大大降低了求解的复杂度和难度。实验证明,经最小错误率训练后系统性能明显提高。最后将结构转换模型应用到统计机器翻译中,利用结构转换模型来隐藏源语言和目标语言之间的句法结构的异构现象。将词汇级的远距离调序转换成元结构组间的局部调序。实验证明,基于结构转换的机器翻系统的性能远远超过了基于短语的机器翻译系统Pharaoh的性能。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 课题研究的背景和意义  9-10
  1.2 国内外相关研究综述  10-13
    1.2.1 基于词方法的统计机器翻译模型  10-11
    1.2.2 基于短语的统计翻译模型  11-12
    1.2.3 基于句法的统计机器翻译模型  12-13
  1.3 课题来源  13
  1.4 本文研究内容及结构  13-15
第2章 结构转换模型  15-27
  2.1 引言  15-19
    2.1.1 基于形式化语法的模型  15-17
    2.1.2 基于短语结构语法的模型  17-19
    2.1.3 基于依存语法的模型  19
  2.2 基于元结构的结构转换模型  19-26
    2.2.1 基本概念  19-22
    2.2.2 结构转换的基本思想  22-24
    2.2.3 基于Log-linear 的结构转换模型  24-26
  2.3 本章小结  26-27
第3章 元结构的非线性语言模型  27-35
  3.1 引言  27-28
  3.2 n-gram 语言模型  28-29
  3.3 基于元结构的非线性n-gram 语言模型  29-33
    3.3.1 非线性n-gram 语言模型与线性n-gram 语言模型的区别  29-31
    3.3.2 Katz back-off 平滑算法  31-32
    3.3.3 基于元结构的非线性n-gram 语言模型的实现  32-33
  3.4 本章小结  33-35
第4章 模型的参数训练  35-42
  4.1 引言  35-36
  4.2 机器翻译中的自动评价标准  36-37
  4.3 最小错误率训练标准  37-38
  4.4 非平滑错误率计算的最优化算法  38-40
  4.5 实验结果与分析  40
    4.5.1 实验系统及设置  40
    4.5.2 实验结果及分析  40
  4.6 本章小结  40-42
第5章 基于结构转换的统计机器翻译系统  42-57
  5.1 引言  42-43
  5.2 基于结构转换的翻译模型  43-44
  5.3 机器翻译系统设计与实现  44-54
    5.3.1 模型的训练  44-46
    5.3.2 解码器的设计与实现  46-54
  5.4 实验结果与分析  54-55
    5.4.1 实验系统及设置  54
    5.4.2 实验结果及分析  54-55
  5.5 本章小结  55-57
结论  57-58
参考文献  58-63
致谢  63

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 我国野生动物资源物权制度研究,D923.2
  4. 新生代农民工权利行使的制度保障研究,D412.6
  5. 南京农村青年创业问题研究,D432.6
  6. 城乡基本公共服务均等化实现机制研究,D630
  7. 城乡成人教育“元结构”组织体系构建研究,G720
  8. 当前我国农民工消费行为研究,D412.6
  9. 竖向荷载作用下带落地墙的转换梁受力性能研究,TU973.2
  10. 新型农村养老保险法律制度研究,F842.6
  11. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  12. 120吨龙门起重机结构分析及基于遗传算法的主梁结构优化,TH213.5
  13. 构式语法角度下的英语中动结构研究,H314.3
  14. 基于信息依存语言模型的英汉被动结构对比研究,H314.3
  15. 我国“小产权房”法律问题研究,D923;F293.3
  16. 基于词典和概率统计的中文分词算法研究,TP391.1
  17. 中小城镇统筹城乡发展研究,F127
  18. 湖南省城乡一体化发展研究,F299.27
  19. 中国城乡基本公共服务均等化与城乡统筹发展研究,F123
  20. 基于MATLAB的底部大空间剪力墙结构中落地剪力墙刚度优化,TU398.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com