学位论文 > 优秀研究生学位论文题录展示

基于双语语料库的机器翻译关键技术研究

作 者: 巢文涵
导 师: 李舟军
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 语料库 统计机器翻译 基于实例的机器翻译 词对齐 重定序 树-树翻译模型 相似实例检索 基于实例的统计机器翻译
分类号: TP391.2
类 型: 博士论文
年 份: 2008年
下 载: 542次
引 用: 0次
阅 读: 论文下载
 

内容摘要


机器翻译的研究由来已久,但尚未能完全达到人类期望的目标。随着计算机软硬件技术的高速发展,以及语料库建设的完善,利用统计知识的机器翻译成为可能,翻译质量有望离人类的期望更近一步。自噪声信道模型,尤其是最大熵模型提出以来,机器翻译的一个中心任务是如何在模型中融入更有效的知识(特别是语言学知识),以进一步提高机器翻译的质量。本文聚焦于中文-英文之间的机器翻译问题,针对如何有效地在基于中英双语语料库的机器翻译中结合句法知识进行了一系列系统、深入的研究,并形成了一套完整的系统。具体来说,本文包括以下工作:1.提出了一种基于句法知识的词对齐模型及方法。词对齐是统计机器翻译的基础,词对齐的质量将会最终影响到机器翻译的质量。针对中英文之间词对齐的困难,本文提出一种词对齐改进模型,在词对齐过程中引入句法知识,以解释中-英词对齐之间复杂的词序变化。本文首先将反向转录文法(ITG)内隐式的约束转换成显式的位置判断,从而可以有效地将ITG模型引入对数线性词对齐模型。同时,设计了句法分析树与ITG之间的相似度度量,将句法分析树的约束融入到基于ITG的词对齐模型中。通过整合两种类型的句法知识,使得可以对词对齐中的词序变化进行更好的约束。2.提出了一种树-树映射的统计机器翻译模型及方法。由于源句子和目标句子的词序差异,重定序(Reordering)处理翻译过程中目标词顺序的变化,它是统计机器翻译(SMT)过程中需要面对的难题之一。本文提出一种树-树映射的统计机器翻译模型,通过在源句子的句法树与ITG树之间进行映射,实现在全局范围内约束目标短语的顺序变化;同时模型中包含了基于ITG的局部重定序模型特征,通过将两个块的方向预测分解成对两者相邻子块的方向预测,从而能够预测任意长度的两个块之间的翻译方向。局部模型与全局模型的集成,有效地解释了源句子与目标句子之间的复杂关系。3.给出了一种基于双语信息的相似实例检索方法。基于实例的机器翻译(EBMT)采用类比的原理进行翻译,在给定相似实例的条件性,能够产生流畅的译文。因此,如何在大规模的实例库中检索出相似实例,对于EBMT的质量具有重要意义。本文提出一种新颖的相似实例检索方法,利用实例中的词对齐信息,设计了一系列相似度度量,用于计算输入的待翻译句子与训练语料库中实例的相似度,提高了检索的质量;同时,为加快检索的速度,设计了一个双层倒排索引表,提高了检索的效率。4.提出了一种基于实例的统计机器翻译模型及方法。前文提出的树-树模型是从源句子的角度出发,尽量确保生成的译文结构满足与源句子句法树的约束关系。因此,它无法保证目标句子结构的合理性。本文提出一种混合模型,该模型是对树-树模型的扩展,在SMT中结合实例知识,以保证译文的结构合理性以及流畅性。同时,给出了一个基于实例的解码器,它结合统计知识以及实例信息,以提高解码的质量和效率。

全文目录


摘要  12-14
ABSTRACT  14-16
第一章 绪论  16-24
  1.1 研究的问题及意义  16-17
  1.2 研究的背景  17-21
    1.2.1 语料库  17-18
    1.2.2 基于语料库的机器翻译  18-19
    1.2.3 中-英文的差异及其带来的问题  19-20
    1.2.4 国内机器翻译的研究现状  20-21
  1.3 本文工作  21-22
  1.4 本文的论文结构  22-24
第二章 基于双语语料库的机器翻译  24-36
  2.1 基于语料库机器翻译的基本模式  24-25
  2.2 统计机器翻译的两个里程碑  25-29
    2.2.1 IBM的噪声信道模型  25-27
    2.2.2 最大熵模型  27-29
  2.3 结合句法知识的统计机器翻译模型  29-33
    2.3.1 基于树的统计机器翻译  29-30
    2.3.2 反向转录文法  30-33
  2.4 基于实例的机器翻译模型  33-34
  2.5 混合机器翻译模型  34
  2.6 小结  34-36
第三章 基于句法知识的词对齐  36-62
  3.1 引言  36-37
  3.2 词对齐的相关定义  37-39
  3.3 基于ITG的词对齐模型  39-51
    3.3.1 满足ITG约束的词对齐  39-40
    3.3.2 转换ITG约束  40-48
    3.3.4 词对齐搜索算法  48-49
    3.3.5 参数训练  49-50
    3.3.6 权值调整  50-51
  3.4 融入语言学句法知识的词对齐模型  51-55
    3.4.1 句法分析树与ITG树的相似度量  51-54
    3.4.2 整合句法知识的词对齐模型  54-55
  3.5 实验  55-59
    3.5.1 词对齐的评价体系  55
    3.5.2 实验用语料库统计信息  55-56
    3.5.3 词对齐实验及比较  56-58
    3.5.4 实验的后续分析  58-59
  3.6 相关工作及讨论  59-60
  3.7 小结  60-62
第四章 树-树映射的统计机器翻译  62-90
  4.1 引言  62-63
  4.2 树-树统计机器翻译模型  63-67
  4.3 基于ITG的局部重定序模型  67-74
    4.3.1 单个块的输出方向预测  68-70
    4.3.2 两个块的输出方向预测  70-73
    4.3.3 重定序模型  73-74
  4.4 树的同构模型  74-75
  4.5 模型的训练  75-81
    4.5.1 块的提取  75-80
    4.5.2 模型的构建  80-81
  4.6 解码器  81-83
  4.7 实验  83-87
    4.7.1 翻译质量的评价  83-84
    4.7.2 实验用语料库统计信息  84-85
    4.7.3 实验设计  85
    4.7.4 实验结果及分析  85-87
    4.7.5 进一步分析  87
  4.8 相关工作及讨论  87-88
  4.9 小结  88-90
第五章 基于双语知识的相似实例检索  90-110
  5.1 引言  90-91
  5.2 实例语料库的索引结构  91-96
    5.2.1 双层索引结构设计  91-94
    5.2.2 索引表的构建  94-95
    5.2.3 语料库实例的索引过程  95-96
  5.3 快速检索及相关的相似度度量  96-100
    5.3.1 检索的前期准备  96
    5.3.2 词匹配相似度量  96-97
    5.3.3 IDF相似度量  97
    5.3.4 块匹配相似度量  97-98
    5.3.5 快速检索阶段的相似度计算  98-100
  5.4 精化检索及其相关相似度量  100-105
    5.4.1 对齐结构度量  100-104
    5.4.2 语义相似度量  104-105
    5.4.3 最终的相似度度量  105
  5.5 实验  105-108
    5.5.1 实验设计  105-106
    5.5.2 实验结果及分析  106-108
  5.6 相关工作及讨论  108-109
  5.7 小结  109-110
第六章 基于实例的统计机器翻译  110-128
  6.1 引言  110-111
  6.2 基于实例的树-树翻译模型  111-112
  6.3 基于实例的解码器  112-121
    6.3.1 解码器的结构  112-113
    6.3.2 匹配  113-117
    6.3.3 组合  117-120
    6.3.4 解码器算法  120-121
  6.4 混合机器翻译系统:ZZX_MT  121-124
    6.4.1 系统结构  121-122
    6.4.2 语料库的设计  122-124
  6.5 实验  124-125
    6.5.1 实验设计及结果分析  124-125
  6.6 相关工作及讨论  125
  6.7 小结  125-128
第七章 总结和未来工作  128-130
  7.1 工作总结  128-129
  7.2 未来的研究工作  129-130
致谢  130-132
参考文献  132-142
作者在学期间取得的学术成果  142-144
附录A:作者攻读学位期间参与的科研项目  144

相似论文

  1. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 基于中介语语料库的汉语递进复句习得研究,H195
  4. 基于语料库的上海世博会新闻报道的互文性分析,H052
  5. 基于语料库对TAKE用法的比较研究,H319
  6. 中国大学生英语作文中SO使用情况的语料库分析,H319
  7. 基于语料库的中外学术语篇中立场副词对比研究,H314
  8. 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
  9. 中外英文学术语篇中词块的结构和功能对比研究,H315
  10. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  11. 现代汉语功能句型及其语料库建设,H146
  12. 英语学术论文标题的短语学特征研究,H313
  13. 基于语料库的中美经济语篇批评分析,H052
  14. 基于物流专业词汇联想测试的心理词库研究,H319
  15. 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
  16. 中美语言学硕士论文中因果标记语的对比研究,H313
  17. 中国政府文件中国特色英语词丛研究,H313
  18. 基于语料库对科技英语次技术词用法的研究,H314
  19. 基于语料库的英国媒体关于中国制造报道的话语分析,H315
  20. 中国英语学习者与本族语者认识可能性显性表达研究,H319
  21. 基于语料库的中国人日本语学习者的汉字词误用情况和误用分析,H36

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com