学位论文 > 优秀研究生学位论文题录展示

基于短语的汉英统计机器翻译系统的设计与实现

作 者: 何晓峰
导 师: 付树军
学 校: 山东大学
专 业: 软件工程
关键词: 统计机器翻译 短语 翻译模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2009年
下 载: 152次
引 用: 3次
阅 读: 论文下载
 

内容摘要


本文主要介绍了统计机器翻译系统,并对当前统计机器翻译的主流方法——基于短语的统计机器翻译系统进行了探讨。首先向大家介绍了第一个基于短语的统计机器翻译系统——法老(Pharaoh),使大家对基于短语的统计机器翻译系统有了一个比较形象的认识。文中通过数据模型和图表样例介绍了基于短语的统计机器翻译系统的设计过程。对训练语料的对齐、短语抽取,以及对自动抽取的短语进行解码翻译和不同约束规则下的语序调整模型进行了说明介绍,对基于短语的统计机器翻译的具体实现做了充分的理论设计。通过建立数据模型,以及对系统模块的划分,利用国内国际上目前已有的一些资源,包括一些开放的源代码工具和一些可以公开获得的授权工具给出了基于短语的统计机器系统的整合实现。其中包括汉语分词工具、词语对齐模块、英文分词工具、语言模型工具等,并对训练语料库、词语对齐语料库、短语翻译概率表格式、语言模型格式、输入/输出文件格式和参考答案格式进行了定义。实现了各模块间的匹配,规范了数据在整个系统运行中的可操作性。评测环节从语料库中抽取出一部分作为开发集和测试集,利用现有的评测工具对集成的基于短语的统计机器翻译系统的准确度和BLEU值进行评测。设计了基于短语的邮政专用词条领域的汉英机器翻译系统——邮译通系统。综合以上的开发理念和利用现有的开源资源,同时辅以记忆库、词典等模块,我们开发了基于服务器-客户端模式的邮政专用词条汉英机器翻译系统软件——邮译通,该系统可为用户提供方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译。基于短语的统计机器翻译方法能够取得较好的翻译效果,值得做更深一步的研究。

全文目录


摘要  8-9
ABSTRACT  9-11
前言  11-14
第一章 第一个基于短语统计机器翻译系统——法老(PHARAOH)  14-17
第二章 基于短语的系统设计  17-22
  2.1 训练  17-19
  2.2 解码  19-22
    2.2.1 独立于短语的语序调整模型  21
    2.2.2 短语相关的语序调整模型  21-22
第三章 基于短语的系统实现  22-43
  3.1 基于短语的统计机器翻译模型  22-36
    3.1.1 基于短语的统计机器翻译(Koehn et al.,2003;Zens et al.,2002;Koehn,2004)  22
    3.1.2 系统流程  22-25
      3.1.2.1 短语翻译模型的训练  22-23
      3.1.2.2 语言模型的训练  23
      3.1.2.3 解码  23-24
      3.1.2.4 翻译结果的评价  24-25
    3.1.3 模块划分  25
    3.1.4 已有资源和工具简介  25-27
      3.1.4.1 汉语分词工具ICTCLAS  26
      3.1.4.2 词语对齐模块GIZA++  26
      3.1.4.3 英语分词工具tokenizeE.perl.tmpl  26
      3.1.4.4 语言模型工具SRI  26-27
    3.1.5 数据格式定义  27-36
      3.1.5.1 训练语料库格式定义  27
      3.1.5.2 规范的训练语料库格式定义  27
      3.1.5.3 分词的训练语料库格式定义  27-28
      3.1.5.4 词语对齐的语料库格式定义  28-29
      3.1.5.5 短语翻译概率表格式定义  29-30
      3.1.5.6 语言模型格式定义  30-31
      3.1.5.7 输入文本格式定义  31-32
      3.1.5.8 输出文本格式定义  32-34
      3.1.5.9 参考答案格式定义  34-35
      3.1.5.10 评价结果格式定义  35-36
  3.2 训练模块设计与使用  36-39
    3.2.1 模块定义  37
    3.2.2 实现原理  37-38
    3.2.3 使用说明  38-39
  3.3 解码模块设计与使用  39-40
    3.3.1 输入预处理  39
    3.3.2 语言模型接口使用说明  39-40
  3.4 评测工具简介  40-43
第四章 面向邮政领域的统计机器翻译系统  43-53
  4.1 邮译通系统的研究与应用背景  43-44
  4.2 邮译通系统所用到的技术  44-46
    4.2.1 翻译系统核心——邮译通统计机器翻译系统  44
    4.2.2 翻译模板辅助模块  44-45
    4.2.3 翻译记忆库辅助模块  45
    4.2.4 翻译词典辅助模块  45
    4.2.5 基于服务器-客户端的多线程调度模式  45-46
  4.3 邮译通系统的体系结构  46-50
    4.3.1 邮译通系统的物理拓扑结构  46-47
    4.3.2 邮译通系统的逻辑结构评测工具简介  47-49
    4.3.3 邮译通系统的框架结构  49-50
  4.4 邮译通系统的翻译流程  50-53
第五章 总结  53-55
  5.1 总结  53
  5.2 进一步的工作  53-55
参考文献  55-56
致谢  56-57
学位论文评阅及答辩情况表  57

相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 空间构型对语篇连贯的解释,H05
  3. 汉捷语表达空间和时间介词用法对比研究,H146
  4. 基于口令短语的PGP破解研究与实现,TP309.7
  5. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  6. 英语学术论文标题的短语学特征研究,H313
  7. 纺织科学英语学术论文引言的短语学特征研究,H315
  8. 汉英口译中含有多重前置定语名词短语的研究,H315.9
  9. 法汉情感短语对比分析,H32
  10. 基于概念隐喻理论英语短语动词习得研究,H319
  11. An Integrated Model for C-e Government Website Translation,H315.9
  12. 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
  13. 中国英语专业学生短语动词使用错误分析,H319
  14. 纺织科学英语学术论文摘要的短语学特征,H315
  15. 立法语言中的“的”字短语研究,H146
  16. 基于语义分析的汉语短语识别方法研究,TP391.43
  17. 关于层次短语翻译模型调序问题的研究,TP391.2
  18. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  19. 基于词和基本短语模式的特征提取方法,TP391.1
  20. 词汇短语与英语专业学生口语水平的研究,H319
  21. 现代汉语短语理论的嬗变,H146

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com