学位论文 > 优秀研究生学位论文题录展示

Web双语平行语料自动获取及其在统计机器翻译中的应用

作　者: 林政
导　师: 马希荣
学　校: 天津师范大学
专　业: 计算机应用技术
关键词: Web挖掘平行语料库句子对齐统计机器翻译
分类号: TP391.2
类　型: 硕士论文
年　份: 2010年
下　载: 140次
引　用: 0次
阅　读: 论文下载

内容摘要

双语平行语料库在自然语言处理领域有很多重要应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要基础资源。但是大规模双语平行语料库的获取并不容易,现有的平行语料库在规模、时效性和领域的平衡性等方面还不能满足处理真实文本的实际需要。随着互联网的普及和飞速发展,越来越多的双语网站被创建,越来越多的信息以多语言的形式发布,这就为双语和多语语料库的建设提供了很大的来源。一些研究者提出了基于Web的双语或多语平行语料库自动挖掘方法,为双语或多语平行语料库的自动构建提出了有效的解决途径。本文致力于构建一个基于Web的大规模双语平行语料库自动获取系统。取得主要成果有以下几方面：1.研究了双语混合网页的自动发现和获取互联网上的双语平行资源主要分为两类：一类是双语资源分布于两个网页间,两个网页用不同语言描述内容上是互译的,我们称之为双语平行网页；另一类是双语资源位于同一网页内,我们称之为双语混合网页。以往的系统主要是基于双语平行网页的,但是通过观察,我们发现Web上存在大量的双语混合网页,而且双语混合网页上的双语资源对照更为工整,翻译质量较高,是非常宝贵的双语资源来源。双语平行网页存在地址或结构上的相似性,处理方法已经很成熟,但这些方法并不适用于双语混合网页。候选双语混合网页分布通常不确定,缺乏一些常见的启发信息,获取更为困难。本文提出了一种基于尝试下载策略的自动发现双语混合网页的方法,运用该方法获取候选混合网站具有较高的正确率。2.研究了从双语混合网页中抽取平行句对的方法从双语混合网页中抽取平行句对的主要任务可以分成三部分：网页噪声过滤、双语混合网页确认和句子对齐。本文研究并实现了两种网页去噪声方法：专用的基于模板的方法和通用的基于Html标签树的方法。对于双语混合网页的确认本文分两步实验,分别是基于双语字符数的粗判别和基于词典的细判别。最后,本文采用基于混合信息的句子对齐方法将篇章级的双语平行文本转化成双语平行句对。本文解决了上述三个难点问题,实现了一个基于双语混合网页的平行语料自动挖掘系统。3.研究了Web双语平行语料在实际中的应用本文将从Web上获取的双语平行句对应用于统计机器翻译的模型训练,提出了句对质量排序和领域信息检索两种不同的应用策略将Web平行语料加载到训练集中,实验证明本文提出的两种策略可以提高翻译系统性能,在IWSLT评测任务中BLEU值可以提高2到5个百分点。

全文目录

摘要  4-6
Abstract  6-10
第一章引言  10-17
  1.1 研究背景  10-11
  1.2 国内外研究现状  11-15
    1.2.1 双语语料库建设  11-12
    1.2.2 基于Web的双语平行资源自动获取  12-13
    1.2.3 现有系统介绍  13-15
  1.3 主要研究目标和内容  15-16
    1.3.1 研究目标  15
    1.3.2 研究内容  15-16
  1.4 论文组织结构  16-17
第二章 Web双语平行语料自动获取的总体架构  17-21
  2.1 基本框架  17-18
  2.2 任务分析与界定  18-20
    2.2.1 候选双语混合网页获取  18-19
    2.2.2 双语平行文本获取  19
    2.2.3 双语平行句对抽取  19-20
    2.2.4 Web平行语料在统计机器翻译中的应用  20
  2.3 本章小结  20-21
第三章候选双语混合网页获取  21-27
  3.1 基本问题  21-22
  3.2 研究现状  22-23
  3.3 候选双语平行网页获取方法  23-24
  3.4 候选双语混合网页获取方法  24-26
  3.5 本章小结  26-27
第四章双语平行文本获取  27-39
  4.1 基本问题  27
  4.2 网页编码转换  27-29
  4.3 网页噪声过滤  29-35
    4.3.1 研究现状  29-30
    4.3.2 基于模板的方法  30-32
    4.3.3 基于Dom树的方法  32-35
  4.4 双语混合网页确认  35-38
    4.4.1 研究现状  35-36
    4.4.2 双语混合网页确认  36-38
  4.5 本章小结  38-39
第五章双语平行句对抽取  39-50
  5.1 相关研究  39-42
    5.1.1 国内外研究现状  39-40
    5.1.2 基本问题  40-41
    5.1.3 动态规划算法  41-42
  5.2 基于句子长度的对齐方法  42-44
  5.3 基于词汇的对齐方法  44-46
  5.4 基于长度方法和基于词汇翻译方法比较  46-47
  5.5 基于混合信息的对齐方法  47-49
  5.6 本章小结  49-50
第六章 Web语料在统计机器翻译中的应用  50-60
  6.1 Web平行语料特点  50-51
  6.2 统计机器翻译原理  51-53
  6.3 Web平行语料应用于SMT的两种方法  53-56
    6.3.1 句对质量排序方法  53-54
    6.3.2 领域信息检索方法  54-56
  6.4 Web数据应用于SMT的实验  56-59
    6.4.1 随机添加数据和检索添加数据的实验  56-57
    6.4.2 打分重排序方法实验  57-58
    6.4.3 信息检索方法实验  58-59
  6.5 本章小结  59-60
第七章结束语  60-62
  7.1 本文工作总结  60-61
  7.2 下一步研究工作  61-62
附录一基于Web的双语平行语料示例  62-65
附录二 HTML特殊字符转换表  65-66
附录三可处理的网页文件类型  66-67
参考文献  67-71
攻读硕士学位期间发表学术论文及参与项目情况  71-72
致谢  72

Web双语平行语料自动获取及其在统计机器翻译中的应用

内容摘要

全文目录

相似论文