学位论文 > 优秀研究生学位论文题录展示

基于短语的对数线性模型的统计机器翻译方法与系统实现

作 者: 宋彦
导 师: 蔡东风;张桂平
学 校: 沈阳航空工业学院
专 业: 计算机应用技术
关键词: 统计机器翻译 短语 对数线性模型 柱搜索
分类号: TP391.2
类 型: 硕士论文
年 份: 2008年
下 载: 74次
引 用: 1次
阅 读: 论文下载
 

内容摘要


统计机器翻译是一种完全基于数据驱动的机器翻译方法,相比其它方法能更高效和客观地构建翻译系统,而且随着当前计算机可读语料的飞速膨胀和计算机运算性能的极大提升,统计机器翻译已经成为机器翻译研究领域的热点和前沿。作为统计机器翻译研究的重点,不同的翻译方法一直是决定翻译效果的关键因素。基于此认识,本文进行了基于短语对数线性模型的统计机器翻译方法的研究并实现了一个基于该方法的翻译系统,在实验和专利翻译的应用中取得到了较好的翻译效果。本文的主要工作是:短语对齐模型和N-gram统计语言模型的研究和分析,其中包括词对齐及其生成短语对齐模型的计算方法、N-gram统计语言模型的计算和回退方法;基于短语的对数线性模型的原理分析,在其基础上提出了一种多模型的特征组合方式,包括正反向对齐模型和多个语言模型的融合,实验结果证明了这种组合的有效性;基于柱搜索算法的翻译流程的研究,包括对短语翻译候选项的生成、未来概率计算、搜索和剪枝以及译文生成等算法的深入分析,并基于该流程设计实现了一个模块化、可移植、可定制且构造代价小的翻译系统,在实验和应用中均取得了不错的效果;另外,针对一般翻译系统采用内存方式组织短语翻译表带来的问题,提出了一种采用文件索引形式的存储策略,能大大降低系统对使用环境的需求,合理分配计算资源。基于短语的对数线性模型的统计机器翻译方法研究及其系统的实现涉及到统计机器翻译的各个环节,本文在模型和算法方面的探索也证明了该方法的有效性。最后,本文阐述了对统计机器翻译发展和趋势的思考,提出了未来统计机器翻译的应用及其与语言学知识的融合的目标。

全文目录


摘要  6-7
Abstract  7-12
第1章 绪论  12-20
  1.1 研究背景  12-13
  1.2 机器翻译的发展历程和研究现状  13-15
  1.3 机器翻译的方法论概述  15-17
    1.3.1 基于理性主义的方法  16-17
    1.3.2 基于经验主义的方法  17
  1.4 课题的提出  17-18
  1.5 论文结构  18-20
第2章 统计机器翻译方法  20-31
  2.1 统计机器翻译概述  20-26
    2.1.1 统计机器翻译及其发展简述  20-23
    2.1.2 统计机器翻译的特点  23-25
    2.1.3 统计机器翻译的过程  25-26
  2.2 统计机器翻译模型  26-30
    2.2.1 噪声通道模型  26-28
    2.2.2 对数线性模型  28-30
  2.3 小结  30-31
第3章 基于短语的对数线性模型  31-42
  3.1 基于短语的对齐模型  31-37
    3.1.1 词对齐模型  31-35
    3.1.2 短语对齐模型  35-37
  3.2 N-gram 统计语言模型  37-39
    3.2.1 N-gram 统计语言模型的数学描述  37-38
    3.2.2 N-gram 统计语言模型的平滑  38-39
  3.3 基于短语的对数线性模型  39-41
  3.4 小结  41-42
第4章 系统的设计和实现  42-57
  4.1 翻译流程概述  42-43
  4.2 翻译候选项的生成(translation options generation)  43-44
  4.3 未来代价计算(future cost estimates)  44-46
  4.4 柱搜索(beam search)  46-49
    4.4.1 核心算法(core algorithm)  46-48
    4.4.2 合并(recombination)剪枝  48-49
    4.4.3 柱状图(histogram)剪枝  49
  4.5 译文的生成  49
  4.6 其它数值模型的使用  49-51
    4.6.1 调序模型(distortion model)  50
    4.6.2 长度惩罚模型(length model)  50-51
  4.7 基于文件索引存储的对齐模型  51-52
  4.8 系统的实现  52-56
    4.8.1 系统特性  52-53
    4.8.2 特征模型的使用  53-55
    4.8.3 系统的使用  55-56
  4.9 小结  56-57
第5章 实验结果评价和应用分析  57-74
  5.1 评价指标  57-59
  5.2 实验条件  59-61
    5.2.1 训练数据  59-60
    5.2.2 实验数据  60-61
    5.2.3 对比测试系统  61
    5.2.4 系统运行环境  61
  5.3 实验结果  61-70
    5.3.1 预处理对翻译结果的影响  62-64
    5.3.2 特征模型及其参数对翻译结果的影响  64-66
    5.3.3 系统运行参数对翻译结果的影响  66-69
    5.3.4 文件索引形式的对齐模型对系统的性能影响  69-70
  5.4 系统在专利翻译中的应用  70-73
  5.5 小结  73-74
结束语  74-77
参考文献  77-81
致谢  81-82
攻读硕士期间发表(含录用)的学术论文  82

相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 空间构型对语篇连贯的解释,H05
  3. 汉捷语表达空间和时间介词用法对比研究,H146
  4. 基于口令短语的PGP破解研究与实现,TP309.7
  5. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  6. 英语学术论文标题的短语学特征研究,H313
  7. 纺织科学英语学术论文引言的短语学特征研究,H315
  8. 汉英口译中含有多重前置定语名词短语的研究,H315.9
  9. 法汉情感短语对比分析,H32
  10. 基于概念隐喻理论英语短语动词习得研究,H319
  11. 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
  12. 中国英语专业学生短语动词使用错误分析,H319
  13. 纺织科学英语学术论文摘要的短语学特征,H315
  14. 立法语言中的“的”字短语研究,H146
  15. 基于语义分析的汉语短语识别方法研究,TP391.43
  16. 关于层次短语翻译模型调序问题的研究,TP391.2
  17. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  18. 基于词和基本短语模式的特征提取方法,TP391.1
  19. 词汇短语与英语专业学生口语水平的研究,H319
  20. 现代汉语短语理论的嬗变,H146
  21. 关键短语抽取及相关技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com