学位论文 > 优秀研究生学位论文题录展示

基于依存语法的统计机器翻译研究

作 者: 张育
导 师: 周国栋
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 统计机器翻译 依存语法 翻译模型 模板选择 粘贴模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着统计机器翻译技术的发展,基于句法的统计机器翻译逐渐成为研究热点。同传统的基于短语的方法相比,基于句法的方法在翻译过程中能够利用更多的语言学知识,可以更好的指导翻译过程。本文在依存句法分析的基础上,构建了一个依存语法翻译模型,设计并实现了一个完整的统计机器翻译系统,并在此基础上进行了改进。首先,本文构建了一个依存子图(treelet)到串的统计机器翻译模型。该模型的基本单元是对齐模板,其中源语言端是依存子图,目标语言端是串,两端允许变量泛化,对齐模板可以按照一定的约束条件从训练语料中自动获取。在翻译模型的基础上,设计并实现了基准系统。其次,本文对模板选择问题和未覆盖节点译文操作问题进行了研究。针对模板选择问题,采用了两种选择策略,一是为翻译模型增加模板判别特征函数,如长度不一致惩罚,变量数目惩罚等特征,利用最小错误率训练获得权重;二是为对齐模板增加词性信息标记,从而使模板获得一定语言学知识的约束。模板选择实验结果表明,仅添加模板判别特征可以提高BLEU值,而仅增加词性信息标记并没有提高系统的性能,但是利用词性标记将模板库分层后,优先匹配词性标记模板,可使BLEU值有所提高。针对未覆盖节点的译文操作问题,本文构建了一个基于统计的粘贴模型。首先从训练语料中抽取粘贴实例,然后抽取了首词、组合等特征用于最大熵建模,实验结果表明,粘贴模型可以有效的控制未覆盖节点译文的顺序。在NIST MT 2005测试集上,同时应用模板选择和粘贴模型,保留未登录词的系统的BLEU值比Moses高0.0021,删除未登录词后BLEU值可以达到0.2540,证明我们的改进方法是比较有效的。

全文目录


中文摘要  4-5
Abstract  5-9
第一章 绪论  9-13
  1.1 研究背景和意义  9-11
  1.2 本文主要工作  11-12
  1.3 论文组织结构  12-13
第二章 统计机器翻译简介  13-31
  2.1 引言  13
  2.2 基于词的翻译模型  13-15
  2.3 基于短语的翻译模型  15-17
  2.4 基于句法的翻译模型  17-27
    2.4.1 形式化基于句法的翻译模型  18-21
    2.4.2 语言学基于句法的翻译模型  21-27
      2.4.2.1 串输入模型  21-22
      2.4.2.2 树输入模型  22-27
  2.5 翻译自动评测  27-29
    2.5.1 BLEU 评测标准  28-29
    2.5.2 NIST 评测标准  29
  2.6 本章小结  29-31
第三章 基于依存语法的统计机器翻译  31-52
  3.1 引言  31-32
  3.2 模型  32-36
    3.2.1 对齐模板定义  32-34
    3.2.2 形式化定义  34-35
    3.2.3 基本特征函数  35-36
  3.3 翻译模型构建  36-45
    3.3.1 模板抽取  36-43
      3.3.1.1 crossed 节点定义  37-41
      3.3.1.2 抽取算法  41-42
      3.3.1.3 限制策略  42-43
    3.3.2 概率计算  43-45
  3.4 解码  45-51
    3.4.1 解码算法  45-47
    3.4.2 模板匹配  47
    3.4.3 替换和粘贴操作  47-49
    3.4.4 剪枝策略  49
    3.4.5 集成短语  49-51
  3.5 本章小结  51-52
第四章 模板选择策略和粘贴模型的应用  52-63
  4.1 改进的模板选择策略  52-55
    4.1.1 增强的模板特征函数  52-53
    4.1.2 词性标记的合理使用  53-55
  4.2 粘贴模型  55-62
    4.2.1 粘贴实例的获取  56-60
    4.2.2 特征的获取  60-61
    4.2.3 粘贴模型构建  61-62
  4.3 本章小结  62-63
第五章 实验结果与分析  63-76
  5.1 系统架构  63-64
  5.2 实验  64-74
    5.2.1 基准系统实验和分析  64-67
    5.2.2 模板选择实验和分析  67-68
    5.2.3 粘贴模型实验和分析  68-70
    5.2.4 对比实验和分析  70-74
  5.3 本章小结  74-76
第六章 总结与展望  76-78
  6.1 总结  76-77
  6.2 展望  77-78
参考文献  78-83
攻读硕士学位期间发表(录用)的论文  83
攻读硕士学位期间参与的项目  83-84
致谢  84-86

相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  3. An Integrated Model for C-e Government Website Translation,H315.9
  4. 基于语义分析的汉语短语识别方法研究,TP391.43
  5. 关于层次短语翻译模型调序问题的研究,TP391.2
  6. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  7. DNA计算中若干理论的研究,TP301.6
  8. 基于依存树库的英语名词句法研究,H314.3
  9. 数字图像修复算法的研究,TP391.41
  10. 利用DNA长度编码实现分子计算,Q523
  11. 算术运算的生物计算方法,TP301.6
  12. 无线传感器网络最小集合覆盖问题的DNA算法研究,TP301.6
  13. 一类图的控制集问题的DNA算法研究,O157.5
  14. 中文文本多粒度情感分类计算的研究,TP391.1
  15. 基于TTA的ASIP专用指令自动扩展,TP368.11
  16. 多级分离技术及若干问题的DNA算法研究,TP301.6
  17. 工作记忆内容对选择性注意的导向作用,B842.3
  18. 若干问题的DNA计算算法研究,TP301.6
  19. 基于DNA计算模型的几个NP完全问题的研究,TP301.6
  20. 基于DNA计算的聚类算法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com