学位论文 > 优秀研究生学位论文题录展示
机器翻译自动评价计算粒度研究
作 者: 朱俊国
导 师: 杨沐昀
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 机器翻译 自动评价 计算粒度
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 36次
引 用: 0次
阅 读: 论文下载
内容摘要
机器翻译自动评价是机器翻译研究中的一个重要环节,在机器翻译系统的开发周期中起着重要的作用。目前一些简单的基于字符串相似度的方法虽然能高速的对译文进行评价,但是其评价结果存在着严重的偏向性。国际研究中的主流改进方法是融入更多的语言学信息。这样虽然能让评价模型的性能得到提高,但是却因其用到了语言学信息,而丧失了语言的独立性。事实上,语言学信息的引入可以被认为是一种单元匹配时计算单位(粒度)的改变。为了将提高自动评价方法的精度、速度,扩大应用的范围,我们从改变机器翻译自动评价模型计算粒度的角度出发,提出了一系列机器翻译自动评价方法:首先,我们提出了基于字母的机器翻译自动评价的方法。这一评价方法既具有语言独立性,并且又能解决部分的词语曲折变化等问题。同时为了进一步改进基于字母的机器翻译自动评价方法的性能,我们提出了i_Letter_BLEU和i_Letter_Recall两种方法,这两种方法能够根据标准译文自动地调整参数,使得基于字母的机器翻译自动评价方法的性能更加稳定。其次,我们根据现有的基于机器学习的特征融合方法,提出了基于表层信息的多粒度特征融合方法。该方法在SVM排序和回归模型框架下进行特征融合。经过特征选择仅使用了少量的特征就在往年评测数据上取得了与评测时最高成绩可比较的结果。并且值得注意的是,这种方法没有用到任何的深层的语言学信息,是语言独立的。最后,我们将语言学特征用字符串表示,在一系列的基于语言学的计算粒度上分析语言学特征的对于机器翻译自动评价的贡献,提出了基于语言学多粒度特征融合的自动评价模型。该方法仍然在SVM排序和回归模型框架下进行特征的融合。该方法经过特征选择,从大量不同粒度的特征中进行选择,提出了一种较低的计算复杂度的方法,但是相对于其他传统方法具有更高的性能。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-16 1.1 研究背景 9-10 1.2 机器翻译评价的历史及现状 10-12 1.3 主要翻译评价方法的分类及介绍 12-14 1.3.1 基于相似度计算的方法 12-13 1.3.2 基于机器学习的方法 13-14 1.4 本文的研究动机及组织 14-16 1.4.1 本文的研究动机 14-15 1.4.2 本文的组织结构 15-16 第2章 基于字母的机器翻译自动评价方法研究 16-28 2.1 引言 16 2.2 衡量自动评价方法性能的指标 16-18 2.2.1 Pearson 相关系数 16-17 2.2.2 Spearman 秩相关系数 17-18 2.2.3 句对排序一致性 18 2.3 基于字母的机器翻译评价模型 18-21 2.3.1 基于字母的机器翻译自动评价模型 19-20 2.3.2 基于字母的自动评价方法的性能分析实验 20-21 2.4 自适应的基于字母的机器翻译自动评价方法 21-26 2.4.1 自适应的Letter-BLEU 与Letter-Recall 模型 22-25 2.4.2 两种自适应方法的性能对比实验 25-26 2.5 本章小结 26-28 第3章 基于表层信息的多粒度特征融合 28-39 3.1 引言 28-29 3.2 SVM 排序与回归 29-33 3.2.1 支持向量机 29-31 3.2.2 SVM 排序模型 31-32 3.2.3 SVM 回归模型 32-33 3.3 基于表层信息的多粒度特征融合 33-38 3.3.1 特征选择 34-35 3.3.2 基于表层信息的多种粒度融合实验与分析 35-38 3.4 本章小结 38-39 第4章 基于语言学信息的多粒度特征融合 39-48 4.1 引言 39 4.2 字符串化的语言学特征 39-41 4.3 语言学特征的贡献 41-43 4.4 基于语言学的多粒度特征融合 43-47 4.4.1 基于语言学的多粒度特征的选择 43-44 4.4.2 特征选择的可靠性验证 44-45 4.4.3 基于语言学信息的多粒度特征融合实验与分析 45-47 4.5 本章小结 47-48 结论 48-50 参考文献 50-55 附录一 55-56 附录二 56-57 附录三 57-58 附录四 58-59 攻读硕士学位期间发表的学术论文 59-61 致谢 61
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于语言学知识的机器翻译自动评价研究,TP391.2
- 计算语言学领域英文辅助写作系统,TP391.1
- 面向特定领域的统计机器翻译研究与应用,TP391.2
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于混淆网络的机器翻译系统融合研究,TP391.2
- 基于WEB的双语翻译对抽取方法研究,TP391.2
- 基于短语的统计机器翻译的研究,TP391.2
- 汉英机器翻译中趋向动词的处理,H315.9
- 基于英汉树库的机器翻译研究,H315.9
- 统计机器翻译语料预处理中的问题研究,H085
- 汉英机器翻译对比研究,H085
- 层次短语翻译模型的实现与分析,TP391.2
- 《飘》的人机翻译对比分析,H315.9
- 论翻译权,D923.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|