学位论文 > 优秀研究生学位论文题录展示

统计机器翻译中命名实体处理研究

作 者: 王欣欣
导 师: 赵铁军
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 统计机器翻译 命名实体识别 命名实体翻译 双语命名实体对齐 规则抽取
分类号: TP391.2
类 型: 硕士论文
年 份: 2009年
下 载: 76次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,不同语言之间的沟通和交流变得越来越重要,在此背景下机器翻译等自然语言处理技术得到长足发展。作为当前研究热点之一,命名实体识别及翻译技术正广泛应用于诸多自然语言处理任务中,如机器翻译、信息检索、文本分类以及自动文摘等。在机器翻译中命名实体的识别和翻译也成为影响机器翻译性能的重要因素之一。本文主要针对统计机器翻译中的命名实体识别和翻译进行了研究,针对层次短语统计机器翻译模型中结合语言知识的规则抽取改进方法进行了探讨,然后提出了结合命名实体识别和翻译的规则抽取改进方法。具体研究内容主要包括以下几个方面:1.研究并实现了基于条件随机域的实体类命名实体识别方法,该方法将命名实体识别看作一个序列标注问题,利用条件随机域算法分别训练出英语和汉语命名实体识别模型,然后使用该模型进行命名实体识别。实验表明,这种方法取得了较好的识别准确率。2.提出了命名实体翻译的总体框架,将实体类命名实体识别和翻译与数字和时间表达式识别和翻译联系起来,共同作用于机器翻译过程中去。3.设计了对称策略的双语实体类命名实体(包括人名、地名和机构名)对齐的构建方案,基于汉语和英语命名实体识别结果,结合词对齐得到命名实体候选翻译对,使用互信息等过滤抽取出命名实体翻译对。实验表明,该方法得到的命名实体翻译对准确率较好。4.设计了数字和时间表达式的汉语和英语识别方法,提出了汉英数字和时间表达式翻译方法。实验结果表明,识别和翻译效果较好。5.通过结合中文停用词、词性标注和词频等语言知识进行了基于层次短语的统计机器翻译中规则抽取方法的改进研究。实验表明,此方法在一定程度上提高了机器翻译性能。6.提出了结合命名实体识别和翻译的规则抽取改进方法。此方法具有较好的研究和应用前景。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-23
  1.1 本文研究的目的和意义  9-11
  1.2 机器翻译的发展历程与现状  11-18
    1.2.1 机器翻译方法概述  11-13
    1.2.2 基于词的统计机器翻译模型  13-14
    1.2.3 基于短语的统计机器翻译模型  14-16
    1.2.4 基于句法的统计机器翻译模型  16-17
    1.2.5 机器翻译方法小结  17-18
  1.3 命名实体识别与翻译的发展历程与现状  18-19
    1.3.1 命名实体识别与翻译的任务  18-19
    1.3.2 命名实体识别与翻译的评测活动  19
  1.4 命名实体翻译与机器翻译之间的关系  19-21
  1.5 本文的主要研究内容及组织  21-23
第2章 命名实体识别与翻译的相关研究  23-34
  2.1 引言  23
  2.2 命名实体识别相关研究综述  23-26
    2.2.1 命名实体识别方法介绍  23-24
    2.2.2 现有命名实体识别系统  24-26
  2.3 命名实体翻译相关研究综述  26-33
    2.3.1 命名实体直接翻译的方法  27-29
    2.3.2 双语命名实体对齐的方法  29-31
    2.3.3 网络辅助的命名实体翻译方法  31-33
  2.4 本章小结  33-34
第3章 基于CRF模型的命名实体识别  34-49
  3.1 引言  34-35
  3.2 CRF模型介绍  35-38
  3.3 基于CRF的命名实体识别方法  38-43
  3.4 实验结果与分析  43-47
    3.4.1 实验设置  43
    3.4.2 评价指标  43-44
    3.4.3 实验及结果分析  44-47
  3.5 本章小结  47-49
第4章 汉英命名实体翻译研究  49-60
  4.1 引言  49
  4.2 汉英命名实体翻译  49-55
    4.2.1 汉英命名实体翻译总体框架  49-51
    4.2.2 数字和时间表达式识别和翻译  51-52
    4.2.3 实体类命名实体翻译  52-55
  4.3 实验结果与分析  55-59
    4.3.1 评价指标  55
    4.3.2 实验及结果分析  55-59
  4.4 本章小结  59-60
第5章 结合命名实体处理的规则抽取研究  60-70
  5.1 引言  60-61
  5.2 基于层次短语的SMT规则抽取方法介绍  61-63
  5.3 基于层次短语的SMT规则抽取方法的改进研究  63-67
    5.3.1 结合停用词的规则抽取方法  63-64
    5.3.2 结合词性信息的规则抽取方法  64-65
    5.3.3 结合词频信息的规则抽取方法  65-66
    5.3.4 结合命名实体识别和翻译的规则抽取方法  66-67
  5.4 实验结果与分析  67-69
    5.4.1 规则抽取的评价标准  67
    5.4.2 规则抽取实验结果与分析  67-69
  5.5 本章小结  69-70
结论  70-72
参考文献  72-80
附录  80-83
致谢  83

相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  3. 基于本体的医学命名实体识别技术研究,TP391.1
  4. 电梯产品配置规则动态增量式更新与方案优选技术及其应用,TU857
  5. 基因表达式编程在神经网络中的应用研究,TP183
  6. 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
  7. 大规模中文机构名称与机构地址自动翻译研究,TP391.2
  8. 统计机器翻译中树到串对齐模板模型系统实现和比较研究,TP391.2
  9. 基于模糊决策树的图像情感分类规则抽取算法的研究,TP391.41
  10. 基于优势关系的几种粗糙集约简及关系研究,TP18
  11. 精确Web信息抽取集成模型与关键技术研究,TP393.09
  12. 神经网络规则抽取及其在带钢热镀锌质量控制参数设定中的应用研究,TP183
  13. Web双语平行语料自动获取及其在统计机器翻译中的应用,TP391.2
  14. 基于免疫规划的图像情感规则抽取算法的研究,TP391.41
  15. 信息集成系统中面向领域的Web信息抽取研究,TP393.092
  16. 改进的模糊BP网络在ECG自动识别与规则抽取中的应用研究,TP391.4
  17. 从神经网络中抽取加权模糊产生式规则,O159
  18. 蛋白质磷酸化位点预测与规则抽取方法研究,Q811.4
  19. 基于模糊/神经网络的电力系统短期负荷预测,TM715
  20. 符号系统与神经网络相结合的知识求精技术研究,TP182

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com