学位论文 > 优秀研究生学位论文题录展示

汉英双向时间数字和数量词的识别与翻译技术

作 者: 郑宏
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 命名实体识别 命名实体翻译 同步上下文无关文法 正则语言
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 64次
引 用: 0次
阅 读: 论文下载
 

内容摘要


命名实体识别与翻译是机器翻译的重要组成部分。本文使用基于语料库的方法,挖掘提取语料库中数字、时间日期、数量词的表达模式,并由此转换为规则,实现了中英数字、时间日期、数量词这几种命名实体的识别与双向翻译。本文的研究内容主要包括四部分:(1)介绍了自动机理论,为后文的规则提取与利用作理论铺垫,并阐述了有限状态自动机、非有限状态自动机和正则表达式之间在正则语言表达上的等价关系。本文先从大量的语料中挖掘出中英命名实体的表达模式,再将这些表达模式转化为规则,也就是以正则表达式的形式给出。(2)采用同步上下文无关文法来解析和翻译时间日期。同步上下文无关文法在上下文无关文法的基础上,给每条文法增加翻译文法规则,从而把解析的过程与翻译的过程同步起来。而对于同步上下文无关文法的解析,采用了CYK+算法。(3)本文将数量词定义为:数字+量词+名词。“数字”部分直接将前面数字的识别与翻译系统作为这里的一个模块,量词则使用语言学家总结的量词表,对于名词部分,则采用数据挖掘的策略,从大语料的phrase-table中来抽取中英数量词翻译对。(4)将中英数字、时间日期、数量词的识别与翻译规范进行了详细阐述并给出了实验结果与分析。实验表明具有较高的识别F-measure值和翻译准确率。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-15
  1.1 本文研究意义与研究背景  8-10
    1.1.1 研究意义  8-9
    1.1.2 研究背景  9-10
  1.2 命名实体识别与翻译的研究现状与展望  10-13
    1.2.1 命名实体识别与翻译的任务  10-12
    1.2.2 命名实体识别与翻译的评测  12-13
  1.3 本文的主要研究内容及组织  13-15
第2章 有限状态自动机  15-20
  2.1 确定性有限状态自动机  15-16
  2.2 非确定性有限状态自动机  16-18
  2.3 DFA 和NFA 与正则表达式之间的关系  18
  2.4 本章小结  18-20
第3章 中英数字的识别与翻译  20-28
  3.1 引言  20
  3.2 中文数字的识别规范  20-21
  3.3 英文数字的识别规范  21-23
  3.4 数字的解析与翻译  23-25
    3.4.1 数字的解析  23
    3.4.2 数字的翻译  23-25
  3.5 实验结果与分析  25-27
    3.5.1 实验设置  25
    3.5.2 评价指标  25-26
    3.5.3 实验及其结果分析  26-27
  3.6 本章小结  27-28
第4章 中英时间日期的识别与翻译  28-42
  4.1 引言  28
  4.2 中文时间日期的识别规范  28-30
    4.2.1 基本时间  29
    4.2.2 复合时间  29-30
    4.2.3 跨度时间  30
    4.2.4 不可标注的时间日期表达式  30
  4.3 英文时间日期的识别规范  30-35
    4.3.1 基本时间  31-34
    4.3.2 复合时间  34-35
  4.4 时间日期的解析  35-40
    4.4.1 同步上下文无关文法  35-36
    4.4.2 时间日期的解析  36-40
  4.5 实验结果与分析  40-41
    4.5.1 实验设置与评价指标  40
    4.5.2 实验及其结果分析  40-41
  4.6 本章小结  41-42
第5章 中英数量词的识别与翻译  42-52
  5.1 引言  42-43
  5.2 中英数量词调研  43-47
  5.3 量词名词搭配模式挖掘  47-50
  5.4 实验结果与分析  50-51
    5.4.1 实验设置与评价指标  50
    5.4.2 实验及其结果分析  50-51
  5.5 本章小结  51-52
结论  52-53
参考文献  53-56
攻读学位期间发表的学术论文  56-58
致谢  58

相似论文

  1. 面向统计机器翻译的解码算法的研究,TP391.2
  2. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  3. 基于本体的医学命名实体识别技术研究,TP391.1
  4. 基于CRF的命名实体和关系的联合抽取,TP391.4
  5. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  6. 中文命名实体识别与歧义消解研究,TP391.1
  7. 中文命名实体识别及若干相关问题的研究,TP391.41
  8. 重新编码后语言和序列的性质,O157.4
  9. 基于条件随机场的中文命名实体识别研究,TP391.4
  10. 基于条件随机场的中文命名实体识别,TP391.43
  11. 本地搜索领域POI缩略词词典的研究,TP391.3
  12. 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
  13. 基于CRF的中文命名实体识别研究,TP391.43
  14. 基于Internet的商业信息抽取,TP399-C2
  15. 统计机器翻译中命名实体处理研究,TP391.2
  16. 生物医学命名实体识别研究,TP391.41
  17. 科技文献语义标注系统研究,TP391.1
  18. 规则与统计相结合的音乐领域命名实体识别,TP391.4
  19. 基于规则的命名实体识别研究,TP391.1
  20. 基于CRF的中文地名识别研究,TP391.43

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com