学位论文 > 优秀研究生学位论文题录展示
统计机器翻译语料预处理中的问题研究
作 者: 修驰
导 师: 荀恩东
学 校: 北京语言大学
专 业: 语言学及应用语言学
关键词: 统计机器翻译 预处理 段对齐 分词 词对齐
分类号: H085
类 型: 硕士论文
年 份: 2009年
下 载: 112次
引 用: 0次
阅 读: 论文下载
内容摘要
目前,统计机器翻译成为机器翻译研究热点,统计机器翻译以大规模双语语料作为训练素材,采用参数训练方法得到翻译模型。为了提高翻译效果,人们尝试对统计机器翻译的各个步骤进行改进。仅语料预处理就包含很多值得研究的问题。本论文就其中三个问题进行了研究分析,这三个问题分别是:1)双语句对语料准备统计机器翻译需要大量句子对齐语料作为训练语料。收集整理高质量的双语语料是一项必不可少的工作。本论文利用段落对齐辅助句子对齐方法,将篇章对齐的双语语料整理成句子对齐形式,并对已有的句对齐语料进行过滤,删除错误对齐句子。2)中文分词对翻译结果影响如何处理中文分词在涉及到中文信息处理的很多领域都有较深入的讨论。但在统计机器翻译中,中文分词如何影响统计机器翻译结果却一直没有定论。本论文利用不同的方法对实验语料进行分词处理,并利用这些分词后的语料进行翻译训练,进而比较不同分词方法的翻译结果。实验结果发现,在统计机器翻译中,中文分词的翻译结果好于不分词的结果;分词的歧义并不是影响翻译结果的重要因素;加入命名实体识别的分词对翻译结果影响不稳定;分词的颗粒度与分词的一致性对统计机器翻译质量影响较大。3)词对齐对翻译结果影响人们曾一直认为词对齐的质量对统计机器翻译结果会造成直接的影响。最近的一些实验却发现词对齐质量的提高对统计机器翻译结果质量的提高很少或者没有提高。为了考察词对齐对统计机器翻译的影响,本实验对19209对句子进行了人工词对齐,并利用人工对齐语料进行统计机器翻译实验,比较人工对齐与自动对齐的结果。结果发现,在统计机器翻译中,词对齐的质量对翻译结果有很大的影响,对齐的越准确,翻译结果越好;另外对齐的颗粒度也会影响的翻译质量。实验中,综合比较分词与词对齐对统计机器翻译的影响程度,结果表明:词对齐对统计机器翻译的影响要大于分词对统计机器翻译的影响。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-11 1.1 选题背景及意义 8-9 1.2 研究目的与内容 9-10 1.3 论文结构 10-11 第二章 机器翻译的研究现状与相关技术 11-25 2.1 机器翻译的发展 11-12 2.2 统计机器翻译的发展 12-19 2.3 机器翻译常用工具 19-24 2.4 本章小结 24-25 第三章 双语对齐技术研究现状 25-32 3.1 段对齐 25-27 3.2 句对齐 27-30 3.3 词对齐 30-31 3.4 本章小结 31-32 第四章 段落对齐 32-44 4.1 段对齐策略 32-38 4.2 实验数据预处理 38 4.3 实验结果与分析 38-41 4.4 实验应用 41-43 4.5 本章小结 43-44 第五章 词对齐的启发式规则 44-49 5.1 启发式规则的提出 44-45 5.2 实验数据与环境 45-47 5.3 实验结果与分析 47-48 5.4 本章小结 48-49 第六章 中文分词对统计机器翻译的影响 49-59 6.1 研究现状 49 6.2 实验数据与环境 49-51 6.3 实验结果与分析 51-56 6.4 分词颗粒度的讨论及实验 56-58 6.5 本章小结 58-59 第七章 词对齐对统计机器翻译的影响 59-72 7.1 词对齐质量评价函数 59-60 7.2 实验数据与环境 60 7.3 实验结果与分析 60-63 7.4 两张短语表实验 63-64 7.5 分词与词对齐影响比较 64-66 7.6 改进的词对齐人工标注标准 66-71 7.6 本章小结 71-72 第八章 总结与展望 72-74 8.1 总结 72-73 8.2 展望 73-74 参考文献 74-78 致谢 78
|
相似论文
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 舌图像中瘀斑瘀点检测技术研究,TP391.41
- 面向统计机器翻译的解码算法的研究,TP391.2
- Cu2+/Co2+催化漂白桉木浆工艺与机理研究,TS745
- 离子液体预处理纤维素及再生纤维素水解研究,TQ352.1
- 玉米秸秆和牛粪混合厌氧发酵工艺优化研究,S216.4
- 红外图像目标识别及跟踪技术研究,TP391.41
- 化学与生物成因施氏矿物的矿物学特征及其对水中As(Ⅲ)吸附去除效果的研究,X703
- O3高级氧化技术处理黄连素制药废水研究,X787
- 缺氧预处理MSCs移植对心肌梗死区SDF-1/CXCR4轴表达变化的实验研究,R542.22
- 丁苯酞预处理对大鼠脑缺血再灌注损伤的神经保护作用,R743.33
- 经H2O2预处理的骨髓间充质干细胞移植对急性心梗后心室重构影响的实验研究,R542.22
- 基于车牌识别技术的智能交通系统的设计与实现,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于web的通信原理教学信息管理与评估系统的设计与实现,TP311.52
- 基于数字图像处理的手势识别,TP391.41
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
- 基于SVM的车牌字符识别算法研究与实现,TP391.41
- 惯性运动捕捉系统中传感数据的传输与处理,TP212
- “嫦娥一号”微波探测仪数据预处理与分析,V446.9
- 主观题自动评分技术研究,TP391.1
中图分类: > 语言、文字 > 语言学 > 应用语言学 > 机器翻译
© 2012 www.xueweilunwen.com
|