学位论文 > 优秀研究生学位论文题录展示

基于关联度和词对齐的双语组块获取研究

作 者: 刘建基
导 师: 黄河燕;王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 机器翻译 关联度 词对齐 双语组块 语料库
分类号: TP391.1
类 型: 硕士论文
年 份: 2006年
下 载: 152次
引 用: 1次
阅 读: 论文下载
 

内容摘要


长期以来,机器翻译系统都是以词为语言翻译的基本单位。人类自然语言中词的使用非常灵活,在机器翻译处理中有很大的歧义性,这是导致机器翻译译文难以提高的关键因素之一。这就需要引入比词语粒度稍大的单位来进行翻译。 本文工作主要内容如下: 首先,引入了面向机器翻译的双语组块的概念,它是一种粒度介于句子和词语之间的双语语段,具有语义自足性、结构合法性和翻译转换的充分性等特点。本文阐述了基于双语组块的句法分析和类比翻译的思想及其在IHSMTS系统中的初步应用思想,并围绕着双语组块的获取展开工作。 其次,在单语语料库的基础上进行了单语组块获取的研究。其中,对常见的关联度函数进行了对比分析,提出了三种获取单语组块的方案,并基于动态增长机制实现了对单语组块的获取,最后对组块语法属性的继承和传递进行了探讨。 第三,在双语语料库的基础上进行了双语组块获取的研究。在单语组块获取工作的基础上,提出了基于统计和基于词对齐的两种双语组块获取模型。设计并实现了基于关联度和词对齐的双语组块获取原型系统,取得了较好的实验效果。

全文目录


摘要  3-4
Abstract  4-5
目录  5-7
1 引言  7-14
  1.1 研究背景及意义  7-11
  1.2 国内外相关研究  11-12
  1.3 论文的提出及研究内容  12-13
  1.4 论文的安排  13-14
2 组块和双语组块  14-26
  2.1 传统单语组块  14-18
    2.1.1 浅层句法分析  14-16
    2.1.2 英语组块分析体系  16-17
    2.1.3 汉语组块分析体系  17
    2.1.4 组块识别方法  17-18
  2.2 面向机器翻译的双语组块  18-22
    2.2.1 词语搭配的界定  18-19
    2.2.2 本文双语组块的定义  19-20
    2.2.3 双语组块研究中的语料库资源  20-22
  2.3 双语组块在机器翻译中的应用  22-25
    2.3.1 基于双语组块的句法分析  22
    2.3.2 基于双语组块的类比翻译  22-23
    2.3.3 双语组块在IHSMTS系统中的应用  23-25
  2.4 本章小结  25-26
3 基于关联度的单语组块获取  26-40
  3.1 单语组块获取模型  26-28
    3.1.1 统计和规则模型间的比较  26-27
    3.1.2 建立单语组块自动获取模型  27
    3.1.3 获取系统的模块设计  27-28
  3.2 单语组块获取关键技术研究与实现  28-37
    3.2.1 常用关联度函数分析与比较  29-31
    3.2.2 改进后的互信息关联度  31-32
    3.2.3 候选单语组块获取方案  32-33
    3.2.4 候选单语组块获取系统  33-35
    3.2.5 实验结果及分析  35-37
  3.3 组块语法属性的继承和传递  37-39
  3.4 本章小结  39-40
4 基于词对齐的双语组块获取  40-54
  4.1 现有的双语知识获取方法  40-41
  4.2 基于统计的双语组块获取模型  41-43
    4.2.1 获取模型  41-43
    4.2.2 关键问题分析  43
  4.3 双语词对齐  43-46
    4.3.1 词对齐概述  43-44
    4.3.2 基于锚点词对的双语词对齐算法  44-46
  4.4 基于关联度和词对齐的双语组块获取系统  46-50
    4.4.1 双语约束举例  46-47
    4.4.2 系统设计  47-48
    4.4.3 系统实现  48-50
  4.5 实验结果及分析  50-52
  4.6 相关工作对比讨论  52-53
  4.7 本章小结  53-54
5 结束语  54-56
  5.1 总结  54-55
  5.2 展望  55-56
附录  56-57
致谢  57-58
参考文献  58-61

相似论文

  1. 统计机器翻译中结构转换技术的研究,TP391.2
  2. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  3. 面向统计机器翻译的解码算法的研究,TP391.2
  4. 灰色系统理论及相关模型的分析比较,N941.5
  5. 新余市光伏产业发展的金融支持研究,F832.2
  6. 基于中介语语料库的汉语递进复句习得研究,H195
  7. 基于语料库的上海世博会新闻报道的互文性分析,H052
  8. 基于语料库对TAKE用法的比较研究,H319
  9. 中国大学生英语作文中SO使用情况的语料库分析,H319
  10. 基于语料库的中外学术语篇中立场副词对比研究,H314
  11. 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
  12. 中外英文学术语篇中词块的结构和功能对比研究,H315
  13. 机器翻译中的高级对齐技术和开发集选择策略研究,TP391.2
  14. 景观导向型产业空间分类开发的模式研究,F592;F224
  15. 现代汉语功能句型及其语料库建设,H146
  16. 中国—东盟服务业产业内贸易研究,F719
  17. 英语学术论文标题的短语学特征研究,H313
  18. 新闻阅读中关联度、知识背景和难易度对后见偏差的影响,B842
  19. 灰色理论在混凝土耐久性中的应用,TU375
  20. 基于语料库的中美经济语篇批评分析,H052
  21. 基于物流专业词汇联想测试的心理词库研究,H319

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com