学位论文 > 优秀研究生学位论文题录展示
英汉可比较语料库的构建与应用研究
作 者: 房璐
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 双语资源 可比较语料库 翻译等价对 跨语言信息检索
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 78次
引 用: 0次
阅 读: 论文下载
内容摘要
双语平行语料在计算语言学和自然语言处理研究领域具有广泛的应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要资源。然而,大规模的双语平行语料库并不容易获取,现有的真正可以利用的具有高质量对齐的平行语料库资源非常有限。虽然有一些研究者提出了基于网络的双语平行语料自动挖掘方法,但是由于网络的复杂多样性,实际应用中往往很难获取大规模高质量的平行语料。针对平行语料存在的规模不足、领域局限、不能很好地处理新词等问题,许多学者开展了可比较语料库的研究。与平行语料相比,可比较语料的限制少、易于更新、并且容易获得。因此,可比较语料库的构建及应用已成为当前研究的热点。本文主要研究了基于网络的英汉可比较语料库的构建方法以及可比较语料库在翻译等价对抽取和跨语言信息检索中的应用。在构建可比较语料库之前,首先研究了如何从互联网上获得大规模双语文本,提出一种从新闻网站构建特定领域文档集的方法,为可比较语料库的构建打下基础。获得大规模英汉双语文本后,采用跨语言信息检索技术,从目标语言文档集合中检索与源语言文档相关的文档,从而建立源语言文档与目标语言文档之间的映射关系,即建立英文文档与中文文档之间的映射关系,最终得到英汉可比较语料库。在可比较语料库的应用方面,首先研究基于可比较语料库进行翻译等价对的抽取,采用的是基于上下文向量的方法。实验证明了上下文向量抽取方法的有效性,并比较了不同上下文向量构建方法的性能。接着,将所抽取的翻译对应用到跨语言信息检索中,并与基于词典的方法和基于平行语料库的方法进行对比。实验表明基于语料库的查询翻译方法优于基于词典的方法,而基于可比较语料库的方法要优于基于平行语料库的方法。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-14 1.1 研究背景与意义 9-10 1.2 研究现状 10-12 1.2.1 可比较语料库构建现状 10-11 1.2.2 基于可比较语料库的应用现状 11-12 1.3 本文的工作 12-13 1.4 本文的组织结构 13-14 第2章 特定领域双语资源获取 14-26 2.1 引言 14-15 2.2 特定领域新闻文档集获取算法 15-21 2.2.1 关键词抽取 15-16 2.2.2 新闻文档收集 16-19 2.2.3 文档相似度计算 19-21 2.3 实验及分析 21-24 2.3.1 相似度方法实验 21-23 2.3.2 文档集质量评价 23-24 2.3.3 文档收集规模实验 24 2.4 本章小结 24-26 第3章 英汉可比较语料库构建 26-37 3.1 英汉可比较语料库文本获取 26-27 3.2 文本对齐 27-32 3.2.1 时间窗口设置 27 3.2.2 关键词提取 27-28 3.2.3 关键词翻译 28 3.2.4 文档检索 28-32 3.3 实验结果分析 32-36 3.3.1 源语言文档和目标语言文档 33-34 3.3.2 实验结果及分析 34-36 3.4 本章小结 36-37 第4章 可比较语料库中翻译等价对抽取 37-47 4.1 引言 37 4.2 相关研究 37-39 4.3 基于可比较语料库的翻译等价对抽取方法 39-43 4.3.1 候选翻译单元抽取 40-41 4.3.2 上下文向量构建 41-42 4.3.3 向量相似度计算 42-43 4.4 实验与分析 43-46 4.4.1 实验设计 43 4.4.2 实验结果及分析 43-46 4.5 本章小结 46-47 第5章 可比较语料库在跨语言信息检索中的应用 47-57 5.1 跨语言信息检索概述 47-51 5.1.1 基于词典的CLIR 48 5.1.2 同源词匹配 48-49 5.1.3 机器翻译 49 5.1.4 基于语料库的CLIR 49-51 5.2 CLIR 测试集 51 5.3 CLIR 评价方法 51-53 5.4 实验与分析 53-56 5.4.1 实验设计 53-54 5.4.2 实验结果及分析 54-56 5.5 本章小结 56-57 第6章 总结与展望 57-59 6.1 本文工作总结 57-58 6.2 展望 58-59 附录 59-60 参考文献 60-66 攻读学位期间公开发表的论文 66-67 致谢 67-68
|
相似论文
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于可比较语料库双语多词表达式对抽取,TP391.1
- 基于个性化推荐的图像浏览与检索相关方法研究,TP391.41
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 日语词法分析及在跨语言信息检索中的应用研究,TP391.1
- 基于WEB的双语句对齐语料的获取和过滤,TP391.1
- 中—英文跨语言问答式信息检索技术研究,TP391.3
- 基于文本挖掘的翻译知识自动获取研究,TP391.1
- 汉语词语语义相似度度量及其在跨语言信息检索中的应用研究,TP391.1
- 大规模中英可比较语料库构建,TP391.1
- 跨语言信息检索查询翻译技术研究,TP391.3
- 面向跨语言信息检索的蒙汉语义词典构建,TP391.1
- 基于Web论文库的学术领域双语资源研究,TP391.1
- 面向生物医学领域的双语对齐技术研究,TP391.12
- 基于本体的Web跨语言信息检索研究,TP391.3
- 基于统计语言模型的跨语言信息检索,TP391.3
- 可比较语料库的研究与构建,TP391.1
- 潜在语义分析在跨语言信息检索中的应用研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|