学位论文 > 优秀研究生学位论文题录展示
汉英双向时间数字和数量词的识别与翻译技术
作 者: 郑宏
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 命名实体识别 命名实体翻译 同步上下文无关文法 正则语言
分类号: TP391.2
类 型: 硕士论文
年 份: 2011年
下 载: 64次
引 用: 0次
阅 读: 论文下载
内容摘要
命名实体识别与翻译是机器翻译的重要组成部分。本文使用基于语料库的方法,挖掘提取语料库中数字、时间日期、数量词的表达模式,并由此转换为规则,实现了中英数字、时间日期、数量词这几种命名实体的识别与双向翻译。本文的研究内容主要包括四部分:(1)介绍了自动机理论,为后文的规则提取与利用作理论铺垫,并阐述了有限状态自动机、非有限状态自动机和正则表达式之间在正则语言表达上的等价关系。本文先从大量的语料中挖掘出中英命名实体的表达模式,再将这些表达模式转化为规则,也就是以正则表达式的形式给出。(2)采用同步上下文无关文法来解析和翻译时间日期。同步上下文无关文法在上下文无关文法的基础上,给每条文法增加翻译文法规则,从而把解析的过程与翻译的过程同步起来。而对于同步上下文无关文法的解析,采用了CYK+算法。(3)本文将数量词定义为:数字+量词+名词。“数字”部分直接将前面数字的识别与翻译系统作为这里的一个模块,量词则使用语言学家总结的量词表,对于名词部分,则采用数据挖掘的策略,从大语料的phrase-table中来抽取中英数量词翻译对。(4)将中英数字、时间日期、数量词的识别与翻译规范进行了详细阐述并给出了实验结果与分析。实验表明具有较高的识别F-measure值和翻译准确率。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-15 1.1 本文研究意义与研究背景 8-10 1.1.1 研究意义 8-9 1.1.2 研究背景 9-10 1.2 命名实体识别与翻译的研究现状与展望 10-13 1.2.1 命名实体识别与翻译的任务 10-12 1.2.2 命名实体识别与翻译的评测 12-13 1.3 本文的主要研究内容及组织 13-15 第2章 有限状态自动机 15-20 2.1 确定性有限状态自动机 15-16 2.2 非确定性有限状态自动机 16-18 2.3 DFA 和NFA 与正则表达式之间的关系 18 2.4 本章小结 18-20 第3章 中英数字的识别与翻译 20-28 3.1 引言 20 3.2 中文数字的识别规范 20-21 3.3 英文数字的识别规范 21-23 3.4 数字的解析与翻译 23-25 3.4.1 数字的解析 23 3.4.2 数字的翻译 23-25 3.5 实验结果与分析 25-27 3.5.1 实验设置 25 3.5.2 评价指标 25-26 3.5.3 实验及其结果分析 26-27 3.6 本章小结 27-28 第4章 中英时间日期的识别与翻译 28-42 4.1 引言 28 4.2 中文时间日期的识别规范 28-30 4.2.1 基本时间 29 4.2.2 复合时间 29-30 4.2.3 跨度时间 30 4.2.4 不可标注的时间日期表达式 30 4.3 英文时间日期的识别规范 30-35 4.3.1 基本时间 31-34 4.3.2 复合时间 34-35 4.4 时间日期的解析 35-40 4.4.1 同步上下文无关文法 35-36 4.4.2 时间日期的解析 36-40 4.5 实验结果与分析 40-41 4.5.1 实验设置与评价指标 40 4.5.2 实验及其结果分析 40-41 4.6 本章小结 41-42 第5章 中英数量词的识别与翻译 42-52 5.1 引言 42-43 5.2 中英数量词调研 43-47 5.3 量词名词搭配模式挖掘 47-50 5.4 实验结果与分析 50-51 5.4.1 实验设置与评价指标 50 5.4.2 实验及其结果分析 50-51 5.5 本章小结 51-52 结论 52-53 参考文献 53-56 攻读学位期间发表的学术论文 56-58 致谢 58
|
相似论文
- 面向统计机器翻译的解码算法的研究,TP391.2
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 中文命名实体识别与歧义消解研究,TP391.1
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 重新编码后语言和序列的性质,O157.4
- 基于条件随机场的中文命名实体识别研究,TP391.4
- 基于条件随机场的中文命名实体识别,TP391.43
- 本地搜索领域POI缩略词词典的研究,TP391.3
- 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
- 基于CRF的中文命名实体识别研究,TP391.43
- 基于Internet的商业信息抽取,TP399-C2
- 统计机器翻译中命名实体处理研究,TP391.2
- 生物医学命名实体识别研究,TP391.41
- 科技文献语义标注系统研究,TP391.1
- 规则与统计相结合的音乐领域命名实体识别,TP391.4
- 基于规则的命名实体识别研究,TP391.1
- 基于CRF的中文地名识别研究,TP391.43
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|