学位论文 > 优秀研究生学位论文题录展示
基于短语的统计机器翻译的研究
作 者: 狄萍
导 师: 周国栋
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 统计机器翻译 短语翻译概率表 C值 短语粘连度 主题模型
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 115次
引 用: 1次
阅 读: 论文下载
内容摘要
随着计算机技术的高速发展,统计机器翻译展示了日益广阔的应用前景。基于短语的统计机器翻译系统在抽取短语时往往将任意连续的单词看作短语,由于没有考虑短语的合理性,因此会产生大量冗余的短语。这不仅扩大了系统的搜索空间,还严重影响了翻译质量。针对以上问题,本文重点研究如何有效地提高短语的质量。本文首先分析了统计机器翻译的相关原理和各种技术,并在此基础上构建了一个基于短语的统计机器翻译基准系统。然后使用C值和短语粘连度两种方法对短语的合理性进行评分,再据此构建一个更有效的短语翻译概率表。实验结果显示,使用C值方法将短语翻译概率表缩减至78%时,翻译结果的评价指标BLEU值可以提高0.02;使用粘连度可以使短语翻译概率表最小缩减至47.5%,翻译结果的BLEU值可以提高0.0158。另外,本文还将主题模型应用于统计机器翻译系统。训练时为每个短语确定一个主题分布,在翻译时再过滤掉与主题不相关的短语,从而提高翻译性能。实验结果显示,跟基准系统相比,采用主题模型后可使BLEU值提高0.0136。最后,本文还将短语的主题模型和C值方法结合起来,在保留短语有效性的同时对短语翻译概率表进行进一步的缩减。实验表明,当短语翻译概率表缩减为原来的57%时,最终的BLEU值仍有一定的提高。本文的研究和实验表明,使用这些方法可以有效地缩减并优化短语翻译概率表,从而明显改善翻译质量。将主题模型应用于机器翻译是一个全新的尝试,今后我们将进一步探讨如何在统计机器翻译中更好地发挥主题模型的优势。
|
全文目录
摘要 4-5 Abstract 5-9 第一章 绪论 9-18 1.1 研究背景 9-10 1.2 统计机器翻译的研究现状 10-15 1.3 研究意义 15-16 1.4 本文的主要工作和贡献 16 1.5 本文的组织结构 16-18 第二章 统计机器翻译的相关原理 18-41 2.1 框架模型 18-20 2.1.1 噪声通道模型 18-19 2.1.2 对数线性模型 19-20 2.2 语言模型 20-22 2.3 翻译模型 22-25 2.3.1 词对齐 22-23 2.3.2 IBM 模型 23-25 2.4 系统结构 25-26 2.5 基于短语的统计机器翻译 26-38 2.5.1 概述 26-27 2.5.2 短语对抽取 27-32 2.5.3 搜索方法 32-38 2.5.3.1 合并假设 33-36 2.5.3.2 未来代价估计 36-37 2.5.3.4 N-best 列表 37-38 2.6 机器翻译的自动评测 38-40 2.6.1 BLEU 评测 38-39 2.6.2 NIST 评测 39-40 2.7 本章小结 40-41 第三章 系统的构建 41-55 3.1 系统框架 41-42 3.2 系统运行环境 42 3.3 训练模块 42-53 3.3.1 词对齐模型训练 42-46 3.3.1.1 数据预处理 43-45 3.3.1.2 运行GIZA++ 45-46 3.3.2 短语对齐模型 46-50 3.3.3 语言模型训练 50-52 3.3.4 创建配置文件 52-53 3.4 解码模块 53-54 3.5 模型参数的训练 54 3.6 本章小结 54-55 第四章 对基准系统的改进 55-62 4.1 短语翻译概率表的缩减 55-57 4.1.1 C 值 55-57 4.1.2 短语粘连度 57 4.2 主题模型 57-61 4.2.1 LDA 模型 58-60 4.2.2 短语的主题评分 60-61 4.3 本章小结 61-62 第五章 实验结果及分析 62-66 5.1 根据C 值以及粘连度对短语翻译概率表进行缩减 62-64 5.2 主题模型在翻译系统中的应用 64 5.3 C 值和主题模型的结合 64-65 5.4 本章小结 65-66 第六章 总结与展望 66-67 参考文献 67-71 攻读硕士学位期间发表(录用)的论文 71-72 致谢 72-74
|
相似论文
- 带有多项式基的径向点插值无网格方法的研究及应用,O241
- 高灵敏度GNSS软件接收机的同步技术研究与实现,P228.4
- 机载导弹的传递对准研究,V249.322
- 基于小波变换的语音信号去噪及其DSP算法实现,TN912.3
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 医学超声图像去噪方法研究,TP391.41
- 面向统计机器翻译的解码算法的研究,TP391.2
- 捷联成像导引头视线角速率估计方法研究,TJ765
- 罗非鱼分离蛋白的制备及其性质研究,TS254.4
- K-均值聚类算法的研究与改进,TP311.13
- 基于对数正态分布异方差模型的统计推断,O212.1
- NaHCO3在杨树溃疡病防治中的作用机制研究,S763.7
- 基于遗传算法的柑橘图像分割,TP391.41
- 10t/hm~2冬小麦氮素营养特性及诊断和氮肥运筹研究,S512.1
- 河南省燃化集团并购仰韶华源燃气公司案例研究,F271
- 鸡胸肉、腿肉混合肌原纤维蛋白热诱导凝胶特性的研究,TS251.1
- 皮革数码印花工艺研究,TS544
- 大型底栖无脊椎动物在水环境管理中的应用,X824
- 广西桂林漓江流域水生态健康评价预测模型研究,X826
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 高职院校实训基地建设项目成本控制研究,G712.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|