学位论文 > 优秀研究生学位论文题录展示

面向统计机器翻译的解码算法的研究

作 者: 梁华参
导 师: 赵铁军
学 校: 哈尔滨工业大学
专 业: 计算机科学技术
关键词: 统计机器翻译 k-best句法分析 解码算法 同步上下文无关文法
分类号: TP391.2
类 型: 硕士论文
年 份: 2008年
下 载: 77次
引 用: 0次
阅 读: 论文下载
 

内容摘要


统计机器翻译发展到今天,其模型已经经历了词模型,短语模型,形式句法模型,树-串模型,串-树模型的变化,目前还有很多学者在尝试建立树-树模型。如此繁复多样的模型,其解码器也各不相同。本文主要描述了一种基于k-best句法分析技术的统一解码算法。我们通过对各种机器翻译模型进行改造,将它们归纳到同步上下文无关文法框架之下,利用一种对于单语k-best句法分析算法,对源语言端进行句法分析。由于同步方法的规则是双端的,所以目标语言端的分析树会随源语言端同步生成。我们利用对数线性模型融入多种特征,利用这些特征值的对数加权和作为同步上下文无关文法的规则得分,在对源语言端句法分析中,这些得分是随分析树的生成而累加的,因此我们可以根据最终在分析树的根节点中存储的得分最高的前k个推导,找出对源语言来说得分最高的k-best翻译结果。我们也介绍了目前主流的,针对短语模型的,基于有穷状态自动机的解码算法,并比较了它和统一解码算法在短语模型上的表现,实验证明,在使用同样短语模型的情况下,统一解码算法的表现和基于有穷状态自动机的解码算法的表现接近。此外,我们也利用统一解码器对多种模型进行了解码,实验证明,在相同的语料上训练模型,对于加入越多先验知识的模型,其解码效果越好。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-16
  1.1 课题背景  8-9
  1.2 统计机器翻译概述  9-10
  1.3 统计机器翻译模型概述  10-15
    1.3.1 建立于词方法基础上的统计机器翻译模型  10-11
    1.3.2 基于短语的统计机器翻译模型  11-12
    1.3.3 基于句法的统计机器翻译模型  12-15
  1.4 本文研究内容及结构  15-16
第2章 统一解码算法及其在形式句法模型上的解码  16-36
  2.1 引言  16-17
  2.2 基于Parsing技术的统一解码算法  17-24
    2.2.1 关于句法分析森林的一些定义  17-19
    2.2.2 k-best句法分析算法  19-22
    2.2.3 基于k-best句法分析的统一解码算法  22-24
  2.3 基于形式句法的机器翻译模型  24-28
    2.3.1 句法模型的优势  24
    2.3.2 形式句法模型规则的抽取  24-26
    2.3.3 形式句法模型规则分数的计算  26-28
  2.4 形式句法模型的解码过程  28-30
    2.4.1 形式句法模型解码采用的特征  28
    2.4.2 融合语言模型的形式句法解码  28-30
  2.5 实验及结果分析  30-35
    2.5.1 小规模语料上的实验  31-32
    2.5.2 大规模语料上的实验  32-34
    2.5.3 实验结果分析  34-35
  2.6 本章小结  35-36
第3章 面向短语模型的解码过程  36-47
  3.1 引言  36-37
  3.2 基于有穷状态自动机的解码系统  37-41
    3.2.1 基于有穷状态自动机的解码器的工作流程  37
    3.2.2 未来代价的引入  37-38
    3.2.3 柱搜索算法和剪枝策略  38-40
    3.2.4 最佳答案的搜索  40-41
  3.3 短语模型上的同步句法分析  41-44
    3.3.1 短语模型上的k-best句法分析  41-42
    3.3.2 语言模型的融入  42-43
    3.3.3 立方体剪枝  43-44
  3.4 实验与结果分析  44-46
    3.4.1 实验数据  44-45
    3.4.2 实验结果  45
    3.4.3 实验结果分析  45-46
  3.5 本章小结  46-47
第4章 面向句法结构模型的解码过程  47-55
  4.1 引言  47-48
  4.2 句法结构模型模型的解码过程  48-52
    4.2.1 关于句法结构模型的一些定义  48-49
    4.2.2 句法结构模型的规则抽取  49-50
    4.2.3 句法结构模型的解码  50-52
  4.3 实验结果与分析  52-54
    4.3.1 实验数据  52-53
    4.3.2 实验结果  53
    4.3.3 实验结果分析  53-54
  4.4 本章小结  54-55
结论  55-57
参考文献  57-61
附录  61-64
攻读硕士学位期间发表的学术论文  64-66
致谢  66

相似论文

  1. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  2. 关于层次短语翻译模型调序问题的研究,TP391.2
  3. 词对齐技术研究及统计机器翻译平台的构建,TP391.2
  4. 一种面向无线应用的音频编解码算法的实现和优化,TN912.3
  5. 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
  6. 面向特定领域的统计机器翻译研究与应用,TP391.2
  7. 基于依存语法的统计机器翻译研究,TP391.2
  8. 基于短语的统计机器翻译的研究,TP391.2
  9. 统计机器翻译语料预处理中的问题研究,H085
  10. 层次短语翻译模型的实现与分析,TP391.2
  11. 基于短语的对数线性模型的统计机器翻译方法与系统实现,TP391.2
  12. 统计机器翻译中命名实体处理研究,TP391.2
  13. 基于维基百科的双语语料挖掘技术研究,TP311.13
  14. 统计机器翻译中树到串对齐模板模型系统实现和比较研究,TP391.2
  15. 基于MIPS嵌入式系统的iLBC编解码处理,TN919.81
  16. 基于Internet的互动辅助翻译技术研究,TP391.2
  17. 英汉人名音译方法的研究与实现,H315.9
  18. 基于短语的汉英统计机器翻译系统的设计与实现,TP391.2
  19. DRM接收机的设计与实现,TN851
  20. 汉蒙统计机器翻译中的形态学方法研究,TP391.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com