学位论文 > 优秀研究生学位论文题录展示
基于统计机器翻译的汉维词对齐研究
作 者: 刘建明
导 师: 吐尔根·依布拉音
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 词对齐 IBM Model1-3 Heuristic优化算法
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 82次
引 用: 0次
阅 读: 论文下载
内容摘要
词对齐技术的研究在自然语言处理领域中对语料库的建设、语音识别、双语词典的编撰、信息检索等提供基础性建设。目前,汉英词对齐技术的研究已取得了准确率90.0%,召回率88.2%的成果,然而汉维词对齐技术的研究起步相对较晚。本文的主要工作就是研究句子一级的汉维词对齐,采用的基于噪声信源信道模型的统计机器翻译方法。本文利用IBM Model1-3和Och的Heuristic优化算法构建一个基于统计机器翻译的汉维词对齐系统。系统分为两个模块:预处理模块和词对齐模块。词对齐过程是:首先利用IBM Model1-3实现句子对齐一级的汉维一对一和一对多等词对应关系,然后结合Och等人提出的Heuristic优化算法,实现汉维多对一和多对多词对应关系。实验结果表明该方法可行,达到了初级阶段所预期的,对后续汉维词对齐技术研究提供了有力的平台。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 引言 7-13 1.1 研究背景与意义 7-9 1.1.1 研究背景 7-8 1.1.2 研究意义及相关应用 8-9 1.2 相关研究综述 9-11 1.3 本文所做工作 11 1.4 本文的组织结构 11-13 第二章 词对齐的定义和方法综述 13-21 2.1 词对齐的定义以及难点 13-15 2.1.1 词对齐的形式化定义 13-14 2.1.2 词对齐的难点 14-15 2.2 词对齐技术方法综述 15-19 2.2.1 基于噪声信源信道模型的统计机器翻译 15-18 2.2.1.1 IBM 的统计机器翻译模型 15-16 2.2.1.2 基于HMM 的词对位模型 16 2.2.1.3 基于结构的对位模型 16-17 2.2.1.4 约翰·霍普金斯大学(JHU)的统计机器翻译夏季研讨班 17 2.2.1.5 Yamada 和Knight 的改进—基于句法的翻译模型(Syntax-based TM) 17-18 2.2.2 用统计工具计算双语词对关联强度的方法 18-19 2.2.3 基于同源词的词对齐方法 19 2.2.4 基于类的词对齐方法 19 2.3 词对齐方法小结 19-21 第三章词对齐方法相关理论 21-27 3.1 IBM Model 1 21-22 3.2 IBM Model 2 22-24 3.3 IBM Model 3 24-25 3.4 Och 等人提出的Heuristic 优化思路 25-27 第四章 基于统计机器翻译的汉维词对齐系统 27-43 4.1 基于统计机器翻译的汉维词对齐系统框架 27-28 4.2 汉维词对齐的基本步骤 28 4.3 基于统计机器翻译的汉维词对齐系统详细设计 28-34 4.3.1 输入文本预处理 28-31 4.3.2 IBM Mode11-3 实现词对齐算法 31-32 4.3.3 Och 的Heuristic 优化词对齐算法 32-34 4.4 一个例子 34-43 第五章 汉维词对齐实验结果分析 43-47 5.1 系统实现 43-45 5.1.1 数据库的设计 44-45 5.1.2 训练语料的准备 45 5.2 各模型词对齐的结果 45 5.3 实验结果分析 45-47 第六章结论与展望 47-48 6.1 本文工作总结 47 6.2 今后的工作 47-48 参考文献 48-50 攻读硕士学位期间发表的论文 50-51 致谢 51
|
相似论文
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 汉蒙统计机器翻译中的形态学方法研究,TP391.2
- 多策略英汉词对齐技术的研究,TP391.1
- 短语级复述的识别与抽取,TP391.1
- 统计机器翻译语料预处理中的问题研究,H085
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于双语语料库的机器翻译关键技术研究,TP391.2
- 基于统计的双语术语自动抽取,TP391.1
- 基于关联度和词对齐的双语组块获取研究,TP391.1
- 双语对齐技术研究,TP391.1
- 半指导的判别式英汉词汇对齐研究,H313
- 基于双语语料的汉语多词表达抽取,TP391.1
- 基于规则和基于统计相结合的中英双语平行句对短语对齐方法,TP391.2
- 基于混淆网络的机器翻译系统融合研究,TP391.2
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|