学位论文 > 优秀研究生学位论文题录展示

汉蒙统计机器翻译中的形态学方法研究

作 者: 杨攀
导 师: 张建
学 校: 中国科学技术大学
专 业: 模式识别与智能系统
关键词: 统计机器翻译 因子化模型 词对齐融合 翻译模型过滤
分类号: TP391.2
类 型: 硕士论文
年 份: 2009年
下 载: 88次
引 用: 2次
阅 读: 论文下载
 

内容摘要


基于短语的统计机器翻译是机器翻译研究的一个热点。当前汉英等语言间的统计机器翻译研究条件不仅双语平行语料库规模充足,而且相关语言的词法、句法分析等方面的基础性研究也十分成熟,这就为其研究提供了一个良好的平台。但是,以上条件对于汉蒙统计机器翻译还很匮乏。这方面研究的困难主要有两点:第一,蒙古语信息化建设相对于汉语来说比较滞后,不仅平行语料库建设规模较小,而且词法及句法分析方面的基础性研究还正在跟进,这很大程度限制了汉蒙统计机器翻译的发展;第二,由于蒙古语属于黏着语,形态变化极为丰富,与作为孤立语的汉语形式相差甚远,因此汉蒙统计机器翻译存在的问题较多,尤其表现在译文词形错误及语序混乱这两个方面。本文以汉蒙统计机器翻译为研究对象。针对蒙古语形态变化丰富这一特点,将形态因子引入到汉蒙统计机器翻译中,通过因子化模型充分利用了蒙古语的形态信息;针对汉蒙平行语料库规模较小这一问题,将基于词典的词对齐方法产生的词对齐点融合到IBM词对齐模型中,并利用蒙古语的词干形态知识提高基于词典方法的汉蒙词对齐质量,再利用融合后的词对齐点训练短语翻译模型,进而用于基于短语的汉蒙统计机器翻译,最终提高译文质量。在统计机器翻译中,翻译模型是唯一不可取代的模型,其重要性不言而喻。针对训练过程造成的短语翻译模型中短语翻译对冗余问题,本文设计并实现了一种通用的基于统计方法的短语翻译模型过滤器,这种过滤器可以根据不同的统计方法对翻译模型进行降噪,在有效降低短语翻译模型规模的同时对统计机器翻译译文的质量影响甚微。关于本研究所提的每部分都有相关对比实验,通过这些对比实验来验证本文所提方法的有效性,同时也探讨了一些方法继续深入研究的可能性。

全文目录


相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  3. 关于层次短语翻译模型调序问题的研究,TP391.2
  4. 词对齐技术研究及统计机器翻译平台的构建,TP391.2
  5. 面向特定领域的统计机器翻译研究与应用,TP391.2
  6. 基于依存语法的统计机器翻译研究,TP391.2
  7. 基于短语的统计机器翻译的研究,TP391.2
  8. 统计机器翻译语料预处理中的问题研究,H085
  9. 层次短语翻译模型的实现与分析,TP391.2
  10. 基于短语的对数线性模型的统计机器翻译方法与系统实现,TP391.2
  11. 统计机器翻译中命名实体处理研究,TP391.2
  12. 基于维基百科的双语语料挖掘技术研究,TP311.13
  13. 统计机器翻译中树到串对齐模板模型系统实现和比较研究,TP391.2
  14. 基于Internet的互动辅助翻译技术研究,TP391.2
  15. 基于短语的蒙汉统计机器翻译研究,TP391.2
  16. 英汉人名音译方法的研究与实现,H315.9
  17. 基于短语的汉英统计机器翻译系统的设计与实现,TP391.2
  18. 基于形态句法信息的短语翻译模型研究,TP391.2
  19. 日文片假名自动翻译技术的研究,TP391.2
  20. Web双语平行语料自动获取及其在统计机器翻译中的应用,TP391.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com