学位论文 > 优秀研究生学位论文题录展示
Web双语平行语料自动获取及其在统计机器翻译中的应用
作 者: 林政
导 师: 马希荣
学 校: 天津师范大学
专 业: 计算机应用技术
关键词: Web挖掘 平行语料库 句子对齐 统计机器翻译
分类号: TP391.2
类 型: 硕士论文
年 份: 2010年
下 载: 140次
引 用: 0次
阅 读: 论文下载
内容摘要
双语平行语料库在自然语言处理领域有很多重要应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要基础资源。但是大规模双语平行语料库的获取并不容易,现有的平行语料库在规模、时效性和领域的平衡性等方面还不能满足处理真实文本的实际需要。随着互联网的普及和飞速发展,越来越多的双语网站被创建,越来越多的信息以多语言的形式发布,这就为双语和多语语料库的建设提供了很大的来源。一些研究者提出了基于Web的双语或多语平行语料库自动挖掘方法,为双语或多语平行语料库的自动构建提出了有效的解决途径。本文致力于构建一个基于Web的大规模双语平行语料库自动获取系统。取得主要成果有以下几方面:1.研究了双语混合网页的自动发现和获取互联网上的双语平行资源主要分为两类:一类是双语资源分布于两个网页间,两个网页用不同语言描述内容上是互译的,我们称之为双语平行网页;另一类是双语资源位于同一网页内,我们称之为双语混合网页。以往的系统主要是基于双语平行网页的,但是通过观察,我们发现Web上存在大量的双语混合网页,而且双语混合网页上的双语资源对照更为工整,翻译质量较高,是非常宝贵的双语资源来源。双语平行网页存在地址或结构上的相似性,处理方法已经很成熟,但这些方法并不适用于双语混合网页。候选双语混合网页分布通常不确定,缺乏一些常见的启发信息,获取更为困难。本文提出了一种基于尝试下载策略的自动发现双语混合网页的方法,运用该方法获取候选混合网站具有较高的正确率。2.研究了从双语混合网页中抽取平行句对的方法从双语混合网页中抽取平行句对的主要任务可以分成三部分:网页噪声过滤、双语混合网页确认和句子对齐。本文研究并实现了两种网页去噪声方法:专用的基于模板的方法和通用的基于Html标签树的方法。对于双语混合网页的确认本文分两步实验,分别是基于双语字符数的粗判别和基于词典的细判别。最后,本文采用基于混合信息的句子对齐方法将篇章级的双语平行文本转化成双语平行句对。本文解决了上述三个难点问题,实现了一个基于双语混合网页的平行语料自动挖掘系统。3.研究了Web双语平行语料在实际中的应用本文将从Web上获取的双语平行句对应用于统计机器翻译的模型训练,提出了句对质量排序和领域信息检索两种不同的应用策略将Web平行语料加载到训练集中,实验证明本文提出的两种策略可以提高翻译系统性能,在IWSLT评测任务中BLEU值可以提高2到5个百分点。
|
全文目录
摘要 4-6 Abstract 6-10 第一章 引言 10-17 1.1 研究背景 10-11 1.2 国内外研究现状 11-15 1.2.1 双语语料库建设 11-12 1.2.2 基于Web的双语平行资源自动获取 12-13 1.2.3 现有系统介绍 13-15 1.3 主要研究目标和内容 15-16 1.3.1 研究目标 15 1.3.2 研究内容 15-16 1.4 论文组织结构 16-17 第二章 Web双语平行语料自动获取的总体架构 17-21 2.1 基本框架 17-18 2.2 任务分析与界定 18-20 2.2.1 候选双语混合网页获取 18-19 2.2.2 双语平行文本获取 19 2.2.3 双语平行句对抽取 19-20 2.2.4 Web平行语料在统计机器翻译中的应用 20 2.3 本章小结 20-21 第三章 候选双语混合网页获取 21-27 3.1 基本问题 21-22 3.2 研究现状 22-23 3.3 候选双语平行网页获取方法 23-24 3.4 候选双语混合网页获取方法 24-26 3.5 本章小结 26-27 第四章 双语平行文本获取 27-39 4.1 基本问题 27 4.2 网页编码转换 27-29 4.3 网页噪声过滤 29-35 4.3.1 研究现状 29-30 4.3.2 基于模板的方法 30-32 4.3.3 基于Dom树的方法 32-35 4.4 双语混合网页确认 35-38 4.4.1 研究现状 35-36 4.4.2 双语混合网页确认 36-38 4.5 本章小结 38-39 第五章 双语平行句对抽取 39-50 5.1 相关研究 39-42 5.1.1 国内外研究现状 39-40 5.1.2 基本问题 40-41 5.1.3 动态规划算法 41-42 5.2 基于句子长度的对齐方法 42-44 5.3 基于词汇的对齐方法 44-46 5.4 基于长度方法和基于词汇翻译方法比较 46-47 5.5 基于混合信息的对齐方法 47-49 5.6 本章小结 49-50 第六章 Web语料在统计机器翻译中的应用 50-60 6.1 Web平行语料特点 50-51 6.2 统计机器翻译原理 51-53 6.3 Web平行语料应用于SMT的两种方法 53-56 6.3.1 句对质量排序方法 53-54 6.3.2 领域信息检索方法 54-56 6.4 Web数据应用于SMT的实验 56-59 6.4.1 随机添加数据和检索添加数据的实验 56-57 6.4.2 打分重排序方法实验 57-58 6.4.3 信息检索方法实验 58-59 6.5 本章小结 59-60 第七章 结束语 60-62 7.1 本文工作总结 60-61 7.2 下一步研究工作 61-62 附录一 基于Web的双语平行语料示例 62-65 附录二 HTML特殊字符转换表 65-66 附录三 可处理的网页文件类型 66-67 参考文献 67-71 攻读硕士学位期间发表学术论文及参与项目情况 71-72 致谢 72
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 面向统计机器翻译的解码算法的研究,TP391.2
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 基于语料库的莎士比亚戏剧汉译本中Lord人际意义显化研究,H315.9
- 互联网舆情信息挖掘与群体行为分析,F49
- 面向企业竞争情报的主题搜索研究与实现,TP391.3
- 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
- 关于层次短语翻译模型调序问题的研究,TP391.2
- 英汉平行语料库句子级对齐研究及其在机器翻译中的应用,H315.9
- 基于协同过滤算法的个性化推荐系统的研究,TP393.09
- 博客朋友推荐技术的研究,TP393.092
- 基于用户兴趣聚类的协同过滤推荐技术的研究,TP393.09
- 基于复杂网络社团结构的网站聚类方法研究,TP393.092
- 基于潜在语义对偶空间的跨语言文本分类研究,TP391.1
- Web用户访问聚类模式研究,TP311.13
- 主题搜索与Web挖掘的研究及系统实现,TP391.3
- 基于云平台在线Web挖掘中计算资源动态平衡的研究与实现,TP311.13
- 基于Web挖掘的建构主义远程教学系统研究,TP391.6
- 电子商务中专业领域货源信息检索系统的设计与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|