学位论文 > 优秀研究生学位论文题录展示
基于关联度和词对齐的双语组块获取研究
作 者: 刘建基
导 师: 黄河燕;王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 机器翻译 关联度 词对齐 双语组块 语料库
分类号: TP391.1
类 型: 硕士论文
年 份: 2006年
下 载: 152次
引 用: 1次
阅 读: 论文下载
内容摘要
长期以来,机器翻译系统都是以词为语言翻译的基本单位。人类自然语言中词的使用非常灵活,在机器翻译处理中有很大的歧义性,这是导致机器翻译译文难以提高的关键因素之一。这就需要引入比词语粒度稍大的单位来进行翻译。 本文工作主要内容如下: 首先,引入了面向机器翻译的双语组块的概念,它是一种粒度介于句子和词语之间的双语语段,具有语义自足性、结构合法性和翻译转换的充分性等特点。本文阐述了基于双语组块的句法分析和类比翻译的思想及其在IHSMTS系统中的初步应用思想,并围绕着双语组块的获取展开工作。 其次,在单语语料库的基础上进行了单语组块获取的研究。其中,对常见的关联度函数进行了对比分析,提出了三种获取单语组块的方案,并基于动态增长机制实现了对单语组块的获取,最后对组块语法属性的继承和传递进行了探讨。 第三,在双语语料库的基础上进行了双语组块获取的研究。在单语组块获取工作的基础上,提出了基于统计和基于词对齐的两种双语组块获取模型。设计并实现了基于关联度和词对齐的双语组块获取原型系统,取得了较好的实验效果。
|
全文目录
摘要 3-4 Abstract 4-5 目录 5-7 1 引言 7-14 1.1 研究背景及意义 7-11 1.2 国内外相关研究 11-12 1.3 论文的提出及研究内容 12-13 1.4 论文的安排 13-14 2 组块和双语组块 14-26 2.1 传统单语组块 14-18 2.1.1 浅层句法分析 14-16 2.1.2 英语组块分析体系 16-17 2.1.3 汉语组块分析体系 17 2.1.4 组块识别方法 17-18 2.2 面向机器翻译的双语组块 18-22 2.2.1 词语搭配的界定 18-19 2.2.2 本文双语组块的定义 19-20 2.2.3 双语组块研究中的语料库资源 20-22 2.3 双语组块在机器翻译中的应用 22-25 2.3.1 基于双语组块的句法分析 22 2.3.2 基于双语组块的类比翻译 22-23 2.3.3 双语组块在IHSMTS系统中的应用 23-25 2.4 本章小结 25-26 3 基于关联度的单语组块获取 26-40 3.1 单语组块获取模型 26-28 3.1.1 统计和规则模型间的比较 26-27 3.1.2 建立单语组块自动获取模型 27 3.1.3 获取系统的模块设计 27-28 3.2 单语组块获取关键技术研究与实现 28-37 3.2.1 常用关联度函数分析与比较 29-31 3.2.2 改进后的互信息关联度 31-32 3.2.3 候选单语组块获取方案 32-33 3.2.4 候选单语组块获取系统 33-35 3.2.5 实验结果及分析 35-37 3.3 组块语法属性的继承和传递 37-39 3.4 本章小结 39-40 4 基于词对齐的双语组块获取 40-54 4.1 现有的双语知识获取方法 40-41 4.2 基于统计的双语组块获取模型 41-43 4.2.1 获取模型 41-43 4.2.2 关键问题分析 43 4.3 双语词对齐 43-46 4.3.1 词对齐概述 43-44 4.3.2 基于锚点词对的双语词对齐算法 44-46 4.4 基于关联度和词对齐的双语组块获取系统 46-50 4.4.1 双语约束举例 46-47 4.4.2 系统设计 47-48 4.4.3 系统实现 48-50 4.5 实验结果及分析 50-52 4.6 相关工作对比讨论 52-53 4.7 本章小结 53-54 5 结束语 54-56 5.1 总结 54-55 5.2 展望 55-56 附录 56-57 致谢 57-58 参考文献 58-61
|
相似论文
- 统计机器翻译中结构转换技术的研究,TP391.2
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 面向统计机器翻译的解码算法的研究,TP391.2
- 灰色系统理论及相关模型的分析比较,N941.5
- 新余市光伏产业发展的金融支持研究,F832.2
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
- 景观导向型产业空间分类开发的模式研究,F592;F224
- 现代汉语功能句型及其语料库建设,H146
- 中国—东盟服务业产业内贸易研究,F719
- 英语学术论文标题的短语学特征研究,H313
- 新闻阅读中关联度、知识背景和难易度对后见偏差的影响,B842
- 灰色理论在混凝土耐久性中的应用,TU375
- 基于语料库的中美经济语篇批评分析,H052
- 基于物流专业词汇联想测试的心理词库研究,H319
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|