学位论文 > 优秀研究生学位论文题录展示

基于Web的双语词汇构建关键技术研究

作　者: 郭雷
导　师: 姚建民
学　校: 苏州大学
专　业: 计算机软件与理论
关键词: 音译词识别直译词识别基本短语标注译文挖掘翻译对抽取
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 47次
引　用: 0次
阅　读: 论文下载

内容摘要

双语词汇的构建是自然语言处理领域一项很基础的工作。双语词汇的好坏直接影响到机器翻译、跨语言检索等自然语言处理系统的性能。像人名、地名、机构名、技术术语以及各类新词经常出现,且无论多么庞大的双语词典也无法将这些词语收录完全,这些词语称之为未登录词。随着时间的变化,不断有新的未登录词出现。在机器翻译、跨语言检索等自然语言处理系统中,为了正确翻译这类词语,需要不断的更新系统的翻译词典。总的来说双语词汇的构建需要解决两方面的技术:一,未登录词的获取;二,未登录词译文的获取。本文将在如何解决这两类技术问题上做一些研究工作。本文实践了基于基本短语识别的未登录词获取技术。首先标注出文本中的基本短语,然后对于不在翻译词典中的词语视其为未登录词候选。对于基本短语的识别,采用了基于组块模型的统计识别方法。基本短语识别实验所处理的语言为英语,但我们这一方法是语言独立的,可以移植到其他语言。未登录词中含有大量音译词。对音译词译文的获取可以采用特殊的方法处理,如运用专门的音译模型。但这首先要做的工作是识别音译词。本文提出了两个统计模型,用于音译词识别。实验显示,这两个模型的识别精确率达到97%以上。同样,我们对直译词意译词的识别也做了研究。本文以最大熵模型作为分类器,以词语的构词特征作为分类特征,通过实验得出了一些有用的结论。最后,本文对如何从可比较网页中获取未登录词译文做了研究。依据源语言词与目标语言词的上下文相似性大小来判断是否为互译的翻译对。本文分别运用了DICE相关系数,条件概率值作为上下文相似性的评价尺度。

全文目录

摘要  3-4
Abstract  4-8
第一章绪论  8-15
  1.1 课题背景  8
  1.2 相关工作  8-13
    1.2.1 未登录词获取  8-10
    1.2.2 未登录词译文获取  10-13
  1.3 研究内容及论文结构  13-15
    1.3.1 研究内容  13
    1.3.2 论文结构  13-15
第二章英语基本短语识别  15-28
  2.1 英语基本短语识别概述  15
  2.2 基于组块模型的基本短语识别  15-24
    2.2.1 相关概念符号  15-16
    2.2.2 词性标注  16-18
    2.2.3 基本短语标注  18-24
  2.3 实验  24-26
    2.3.1 实验流程  24-25
    2.3.2 词性标注性能测试结果  25
    2.3.3 基本短语识别结果及性能  25-26
    2.3.4 词性标注速度与基本短语识别速度  26
  2.4 本章小结  26-28
第三章音译词识别及其译文挖掘  28-43
  3.1 音译词识别  28-35
    3.1.1 两个音译词识别模型  28-31
    3.1.2 最大熵模型识别音译词  31-32
    3.1.3 实验  32-35
  3.2 汉语音译词译文挖掘  35-42
    3.2.1 通过上下文扩展获取Web页面文摘  35-37
    3.2.2 抽取正确译文  37-40
    3.2.3 实验设计及结果  40-42
  3.3 本章小结  42-43
第四章直译词和意译词分类研究  43-61
  4.1 相关概念  43
  4.2 问题的提出  43-45
  4.3 语言学背景  45
  4.4 基于分类策略直译词意译词识别  45-60
    4.4.1 最大熵分类器及特征选择  46
    4.4.2 语料库的构建  46-55
    4.4.3 实验设计及结果分析  55-60
  4.5 本章小结  60-61
第五章基于可比较网页的名实体翻译对抽取  61-67
  5.1 相关背景  61
  5.2 上下文相关模型  61-64
    5.2.1 利用概率P(C(c)|C(e))计算Sim(C(c),C(e))  62-63
    5.2.2 利用DICE系数计算Sim(C(c),C(e))  63-64
  5.3 实验  64-66
    5.3.1 实验语料  64
    5.3.2 预处理  64
    5.3.3 名实体翻译抽取  64-65
    5.3.4 实验结果及评价  65-66
  5.4 错误分析  66
  5.5 本章小结  66-67
第六章总结与展望  67-69
  6.1 本文总结  67
  6.2 未来工作  67-69
参考文献  69-75
攻读学位期间公开发表的论文  75-76
致谢  76-77
详细摘要  77-79

基于Web的双语词汇构建关键技术研究

内容摘要

全文目录

相似论文