学位论文 > 优秀研究生学位论文题录展示

基于统计机器翻译的汉维词对齐研究

作 者: 刘建明
导 师: 吐尔根·依布拉音
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 词对齐 IBM Model1-3 Heuristic优化算法
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 82次
引 用: 0次
阅 读: 论文下载
 

内容摘要


词对齐技术的研究在自然语言处理领域中对语料库的建设、语音识别、双语词典的编撰、信息检索等提供基础性建设。目前,汉英词对齐技术的研究已取得了准确率90.0%,召回率88.2%的成果,然而汉维词对齐技术的研究起步相对较晚。本文的主要工作就是研究句子一级的汉维词对齐,采用的基于噪声信源信道模型的统计机器翻译方法。本文利用IBM Model1-3和Och的Heuristic优化算法构建一个基于统计机器翻译的汉维词对齐系统。系统分为两个模块:预处理模块和词对齐模块。词对齐过程是:首先利用IBM Model1-3实现句子对齐一级的汉维一对一和一对多等词对应关系,然后结合Och等人提出的Heuristic优化算法,实现汉维多对一和多对多词对应关系。实验结果表明该方法可行,达到了初级阶段所预期的,对后续汉维词对齐技术研究提供了有力的平台。

全文目录


摘要  3-4
Abstract  4-7
第一章 引言  7-13
  1.1 研究背景与意义  7-9
    1.1.1 研究背景  7-8
    1.1.2 研究意义及相关应用  8-9
  1.2 相关研究综述  9-11
  1.3 本文所做工作  11
  1.4 本文的组织结构  11-13
第二章 词对齐的定义和方法综述  13-21
  2.1 词对齐的定义以及难点  13-15
    2.1.1 词对齐的形式化定义  13-14
    2.1.2 词对齐的难点  14-15
  2.2 词对齐技术方法综述  15-19
    2.2.1 基于噪声信源信道模型的统计机器翻译  15-18
      2.2.1.1 IBM 的统计机器翻译模型  15-16
      2.2.1.2 基于HMM 的词对位模型  16
      2.2.1.3 基于结构的对位模型  16-17
      2.2.1.4 约翰·霍普金斯大学(JHU)的统计机器翻译夏季研讨班  17
      2.2.1.5 Yamada 和Knight 的改进—基于句法的翻译模型(Syntax-based TM)  17-18
    2.2.2 用统计工具计算双语词对关联强度的方法  18-19
    2.2.3 基于同源词的词对齐方法  19
    2.2.4 基于类的词对齐方法  19
  2.3 词对齐方法小结  19-21
第三章词对齐方法相关理论  21-27
  3.1 IBM Model 1  21-22
  3.2 IBM Model 2  22-24
  3.3 IBM Model 3  24-25
  3.4 Och 等人提出的Heuristic 优化思路  25-27
第四章 基于统计机器翻译的汉维词对齐系统  27-43
  4.1 基于统计机器翻译的汉维词对齐系统框架  27-28
  4.2 汉维词对齐的基本步骤  28
  4.3 基于统计机器翻译的汉维词对齐系统详细设计  28-34
    4.3.1 输入文本预处理  28-31
    4.3.2 IBM Mode11-3 实现词对齐算法  31-32
    4.3.3 Och 的Heuristic 优化词对齐算法  32-34
  4.4 一个例子  34-43
第五章 汉维词对齐实验结果分析  43-47
  5.1 系统实现  43-45
    5.1.1 数据库的设计  44-45
    5.1.2 训练语料的准备  45
  5.2 各模型词对齐的结果  45
  5.3 实验结果分析  45-47
第六章结论与展望  47-48
  6.1 本文工作总结  47
  6.2 今后的工作  47-48
参考文献  48-50
攻读硕士学位期间发表的论文  50-51
致谢  51

相似论文

  1. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  2. 汉蒙统计机器翻译中的形态学方法研究,TP391.2
  3. 多策略英汉词对齐技术的研究,TP391.1
  4. 短语级复述的识别与抽取,TP391.1
  5. 统计机器翻译语料预处理中的问题研究,H085
  6. 词对齐技术研究及统计机器翻译平台的构建,TP391.2
  7. 基于双语语料库的机器翻译关键技术研究,TP391.2
  8. 基于统计的双语术语自动抽取,TP391.1
  9. 基于关联度和词对齐的双语组块获取研究,TP391.1
  10. 双语对齐技术研究,TP391.1
  11. 半指导的判别式英汉词汇对齐研究,H313
  12. 基于双语语料的汉语多词表达抽取,TP391.1
  13. 基于规则和基于统计相结合的中英双语平行句对短语对齐方法,TP391.2
  14. 基于混淆网络的机器翻译系统融合研究,TP391.2
  15. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  16. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  17. 基于FPGA的高速图像预处理技术的研究,TP391.41
  18. 2D人脸模板保护算法研究,TP391.41
  19. 导弹虚拟试验可视化技术研究,TP391.9
  20. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  21. 图像拼接技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com