学位论文 > 优秀研究生学位论文题录展示

词对齐技术研究及统计机器翻译平台的构建

作 者: 李天宁
导 师: 朱靖波
学 校: 东北大学
专 业: 计算机软件与理论
关键词: IBM模型 词对齐 对称化 统计机器翻译 多引擎翻译平台
分类号: TP391.2
类 型: 硕士论文
年 份: 2009年
下 载: 70次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目前,基于统计的方法在机器翻译领域内占据着主导地位,出现了多种不同类型的统计机器翻译系统,如基于短语的系统、基于层次短语的系统、基于句法的系统等。不同类型的系统都各具特点,在不同的领域和方面都表现出了良好的翻译性能,统计机器翻译技术正朝着多元化的方向发展。本文研究了多引擎统计机器翻译平台的实现技术,并针对其中词对齐技术存在的问题提出了解决方案。论文的主要工作归纳如下:(1)词对齐对称化方法的研究。我们针对现有词对齐对称化方法中存在的问题,提出了一种有效的改进方法。它首先在IBM模型获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。然后,对对齐不一致的部分进行重新对齐,并得到更好的对称化的词对齐结果。此外,我们还提出了利用大规模单语语料来强化对齐结果的方法。相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,文本提出方法可以使统计机器翻译系统得到更高的翻译准确率。(2)多引擎统计机器翻译平台的构建。我们为统计机器翻译模型和算法的研究搭建了一个良好的多引擎统计机器翻译平台,同时也为面向工程性开发提供了一个转换平台。多引擎统计机器翻译平台实现了现今主流的三套统计机器翻译系统(基于短语的统计机器翻译系统,基于层次短语的统计机器翻译系统以及基于句法的统计机器翻译系统)。我们根据模块化的思想对翻译平台进行构建,首先根据翻译系统子功能的定义进行模块切分,并整合切分得到的各功能模块,最终得到模块化的翻译平台。从功能和层次的角度出发,我们共设计了六个模块,1)语料预处理模;2)词对齐模块;3)规则短语抽取模块;4)解码器模块;5)系统融合模块;6)后处理模块。最后,在搭建的统计机器翻译平台的基础上,我们进行多组对比实验,对各翻译引擎的性能进行了比较分析。综上所述,本文构建了基于多引擎的统计机器翻译研究平台,并在此基础上,针对词对齐对称化方法存在的问题,并提出了一种改进的重新对齐方法。

全文目录


摘要  5-6
ABSTRACT  6-11
第1章 绪论  11-19
  1.1 研究背景  11-12
  1.2 词对齐研究现状  12
  1.3 统计机器翻译模型  12-17
    1.3.1 基于词的翻译模型  13-14
    1.3.2 基于短语的翻译模型  14-15
    1.3.3 基于句法的翻译模型  15-16
    1.3.4 基于层次短语的翻译模型  16-17
  1.4 本文的主要思路和贡献  17
  1.5 论文组织  17-19
第2章 词对齐的重对齐技术研究  19-31
  2.1 问题描述  20-22
    2.1.1 词对齐的形式化描述  20
    2.1.2 相交型歧义块定义  20-21
    2.1.3 重对齐技术  21-22
  2.2 相交歧义块识别  22
  2.3 重对齐模型  22-25
    2.3.1 重对齐模型1  22-24
    2.3.2 重对齐模型2  24-25
    2.3.3 搜索方法  25
  2.4 实验  25-29
    2.4.1 测试方法及实验用数据  25-26
    2.4.2 基准系统  26
    2.4.3 Baseline vs.重对齐  26-27
    2.4.4 锚点信息的使用  27-28
    2.4.5 扭曲度限制对性能的影响  28-29
  2.5 单语语料规模大小对性能的影响  29
  2.6 讨论  29-30
  2.7 本章小结  30-31
第3章 统计机器翻译平台总体框架  31-37
  3.1 统计机器翻译平台总体框架  31-33
  3.2 统计机器翻译平台的翻译流程  33-35
  3.3 翻译质量评价  35-36
  3.4 本章小结  36-37
第4章 统计机器翻译平台实现技术  37-61
  4.1 语料预处理  37-40
    4.1.1 语料预处理流程  37
    4.1.2 乱码处理模块  37-38
    4.1.3 全角符号转换  38
    4.1.4 英文语料词串化  38
    4.1.5 中文分词  38-39
    4.1.6 双语句对过滤  39
    4.1.7 命名实体翻译  39-40
  4.2 词对齐  40-43
    4.2.1 词对齐过程  40-41
    4.2.2 基于IBM模型的词对齐  41-42
    4.2.3 词对齐对称化技术  42-43
  4.3 翻译规则抽取  43-49
    4.3.1 翻译规则定义  44-46
    4.3.2 基于层次短语的翻译系统的规则抽取  46-48
    4.3.3 基于句法的翻译系统的规则抽取  48-49
  4.4 解码器  49-54
    4.4.1 基于柱搜索的解码算法  50-52
    4.4.2 基于CKY的解码算法  52-54
  4.5 多系统融合  54-56
    4.5.1 句子级多系统融合方法  55
    4.5.2 相关系统融合技术研究  55-56
  4.6 翻译结果后处理  56-57
  4.7 多翻译引擎性能对比实验  57-60
    4.7.1 实验设置  57-58
    4.7.2 CWMT08实验  58
    4.7.3 NIST05(小数据集)实验  58
    4.7.4 NIST05(大数据集)实验  58-59
    4.7.5 实验结果分析  59-60
  4.8 本章小结  60-61
第5章 工作总结与展望  61-63
参考文献  63-67
致谢  67-69
攻读硕士期间发表的论文  69-71
攻读硕士期间参加的项目  71

相似论文

  1. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  4. 关于层次短语翻译模型调序问题的研究,TP391.2
  5. 超对称化最小暗物质模型,P145.9
  6. 面向特定领域的统计机器翻译研究与应用,TP391.2
  7. 基于依存语法的统计机器翻译研究,TP391.2
  8. 基于混淆网络的机器翻译系统融合研究,TP391.2
  9. 基于短语的统计机器翻译的研究,TP391.2
  10. 基于统计机器翻译的汉维词对齐研究,TP391.2
  11. 统计机器翻译语料预处理中的问题研究,H085
  12. 层次短语翻译模型的实现与分析,TP391.2
  13. 基于短语的对数线性模型的统计机器翻译方法与系统实现,TP391.2
  14. 短语级复述的识别与抽取,TP391.1
  15. 统计机器翻译中命名实体处理研究,TP391.2
  16. 一类矩阵特征值的扰动,O151.21
  17. 基于规则和基于统计相结合的中英双语平行句对短语对齐方法,TP391.2
  18. 基于维基百科的双语语料挖掘技术研究,TP311.13
  19. 统计机器翻译中树到串对齐模板模型系统实现和比较研究,TP391.2
  20. 油菜籽做酶源及离子液在拆分中的研究和氰醇Suzuki反应初步探索,O621.25

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com