学位论文 > 优秀研究生学位论文题录展示
基于形态句法信息的短语翻译模型研究
作 者: 骆凯
导 师: 李淼
学 校: 中国科学技术大学
专 业: 模式识别与智能系统
关键词: 依存句法分析 汉蒙翻译模型 Factored短语模型 统计机器翻译
分类号: TP391.2
类 型: 硕士论文
年 份: 2009年
下 载: 67次
引 用: 1次
阅 读: 论文下载
内容摘要
统计机器翻译是自然语言处理研究热点之一,本文研究如何利用句法信息和形态信息构造短语翻译模型,以提高短语翻译系统的性能。句法分析是自然语言处理的关键问题之一,同时也是本文所构造的翻译模型的基础。本文构建了基于统计的汉语依存句法分析器,提取了由该分析器得到的句法信息,阐述了句法特征和语言形态特征提取方法。在此基础上,构造了基于形态句法信息的翻译模型,实现了一个基于短语的汉蒙翻译系统,并给出了句法分析器与翻译系统的实验结果。本研究工作的主要贡献如下:1、句法分析器的模型设计句法分析是自然语言处理的基础工作之一,如何选取句法特征和降低搜索时间复杂度是进行句法分析的关键问题,本文提出利用生成树算法结合概率配价理论方法构造句法分析器,实现了MIRA训练算法。实验表明,此设计方法提高了汉语依存句法分析器准确率。2、句法与语言形态信息提取当前短语统计翻译模型仍然是主流,但此翻译模型对语言信息(句法、语义、形态等)没有较好的融合能力。本文提出将句法树信息和形态信息以标注方式融到每个词或者短语中,在翻译模型构造上实现了规则与统计相结合和词、短语、句法三层面信息的融合,有利于提高译文质量。3、翻译模型构造方法由于句法与形态信息的加入,使Factors数量增多,原有Factored模型会导致数据稀疏,模型训练也会出现过度拟合现象。本文采用对数选项池方法构造了LOP-Factored模型,并实现了参数调整,找到词,词性、句法、形态等各个Factor之间的平衡点,实现模型优化。在汉蒙统计机器翻译对比实验中,BLEU评分比传统短语统计翻译模型有明显提高。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-25 1.1 引言 9 1.2 句法分析概述 9-12 1.3 机器翻译方法的发展综述 12-23 1.3.1 基于规则的机器翻译 12-13 1.3.2 基于统计的机器翻译 13-21 1.3.3 多策略融合的机器翻译 21-23 1.4 本文所做的工作与研究目的 23 1.5 论文结构安排 23-25 第二章 Factored短语翻译模型 25-38 2.1 短语统计翻译的模型概述 25-28 2.1.1 语言模型 25 2.1.2 短语翻译模型 25-26 2.1.3 扭曲模型 26 2.1.4 解码器 26-28 2.2 基本短语的翻译模型 28-33 2.2.1 短语翻译模型方法 28-29 2.2.2 基本短语翻译模型构建方法 29-33 2.3 Factored模型 33-38 2.3.1 Factored翻译模型定义 33-34 2.3.2 Factored模型与基本短语模型的关系 34-36 2.3.3 Factored模型训练 36-37 2.3.4 Factored翻译解码 37-38 第三章 依存句法分析 38-55 3.1 结构句法理论 38-39 3.2 依存句法分析中的配价理论 39-43 3.2.1 配价理论的起源 39 3.2.2 汉语配价理论的发展 39-40 3.2.3 概率配价模式 40-43 3.3 句法分析常见算法 43-49 3.3.1 Chart算法 43-45 3.3.2 Earley算法 45 3.3.3 移进-规约算法 45-46 3.3.4 CYK算法 46-47 3.3.5 Tomita算法 47-49 3.4 最大生成树算法 49-55 3.4.1 最大生成树解码 49-53 3.4.2 联机学习方法 53 3.4.3 MIRA训练算法 53-55 第四章 基于形态句法信息的短语翻译模型 55-62 4.1 引言 55 4.2 蒙古语形态信息获取 55-58 4.2.1 蒙古语及其形态特征 55-57 4.2.2 形态特征信息提取 57-58 4.3 汉语依存句法信息获取 58-60 4.3.1 特征选取 58-59 4.3.2 依存信息标注 59-60 4.4 LOP-Factored模型构造 60-61 4.4.1 对数选项池 60 4.4.2 LOP-Factored模型构建 60-61 4.5 本章小结 61-62 第五章 系统相关实验与分析 62-71 5.1 引言 62 5.2 句法分析实验 62-66 5.2.1 句法分析实验数据 62-64 5.2.2 实验设计与结果分析 64-66 5.3 翻译模型对比实验 66-71 5.3.1 翻译模型实验语料 66-67 5.3.2 实验设计与结果分析 67-71 第六章 总结与展望 71-73 6.1 总结 71 6.2 研究展望 71-73 参考文献 73-78 致谢 78-79 在读期间发表的学术论文与取得的研究成果 79
|
相似论文
- 面向统计机器翻译的解码算法的研究,TP391.2
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 基于贝叶斯分类方法的中文问句分类研究,TP391.1
- 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
- 中文问答系统中问题分析关键技术的研究,TP391.1
- 词对齐技术研究及统计机器翻译平台的构建,TP391.2
- 基于情感分析的新闻浏览平台关键技术研究,TP391.1
- 基于主动学习的汉语依存树库构建,TP391.1
- 面向特定领域的统计机器翻译研究与应用,TP391.2
- 问句依存句法及语义分析研究,TP391.1
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于短语的统计机器翻译的研究,TP391.2
- 统计机器翻译语料预处理中的问题研究,H085
- 依存句法分析统计模型及树库转化研究,TP391.1
- 层次短语翻译模型的实现与分析,TP391.2
- 基于依存句法分析的语义角色标注,TP391.1
- 基于短语的对数线性模型的统计机器翻译方法与系统实现,TP391.2
- 统计机器翻译中命名实体处理研究,TP391.2
- 面向Web文本的产品意见挖掘算法研究,TP391.1
- BBS主观倾向分析,TP393.094
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|