学位论文 > 优秀研究生学位论文题录展示
基于Web的双语词汇构建关键技术研究
作 者: 郭雷
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机软件与理论
关键词: 音译词识别 直译词识别 基本短语标注 译文挖掘 翻译对抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 47次
引 用: 0次
阅 读: 论文下载
内容摘要
双语词汇的构建是自然语言处理领域一项很基础的工作。双语词汇的好坏直接影响到机器翻译、跨语言检索等自然语言处理系统的性能。像人名、地名、机构名、技术术语以及各类新词经常出现,且无论多么庞大的双语词典也无法将这些词语收录完全,这些词语称之为未登录词。随着时间的变化,不断有新的未登录词出现。在机器翻译、跨语言检索等自然语言处理系统中,为了正确翻译这类词语,需要不断的更新系统的翻译词典。总的来说双语词汇的构建需要解决两方面的技术:一,未登录词的获取;二,未登录词译文的获取。本文将在如何解决这两类技术问题上做一些研究工作。本文实践了基于基本短语识别的未登录词获取技术。首先标注出文本中的基本短语,然后对于不在翻译词典中的词语视其为未登录词候选。对于基本短语的识别,采用了基于组块模型的统计识别方法。基本短语识别实验所处理的语言为英语,但我们这一方法是语言独立的,可以移植到其他语言。未登录词中含有大量音译词。对音译词译文的获取可以采用特殊的方法处理,如运用专门的音译模型。但这首先要做的工作是识别音译词。本文提出了两个统计模型,用于音译词识别。实验显示,这两个模型的识别精确率达到97%以上。同样,我们对直译词意译词的识别也做了研究。本文以最大熵模型作为分类器,以词语的构词特征作为分类特征,通过实验得出了一些有用的结论。最后,本文对如何从可比较网页中获取未登录词译文做了研究。依据源语言词与目标语言词的上下文相似性大小来判断是否为互译的翻译对。本文分别运用了DICE相关系数,条件概率值作为上下文相似性的评价尺度。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-15 1.1 课题背景 8 1.2 相关工作 8-13 1.2.1 未登录词获取 8-10 1.2.2 未登录词译文获取 10-13 1.3 研究内容及论文结构 13-15 1.3.1 研究内容 13 1.3.2 论文结构 13-15 第二章 英语基本短语识别 15-28 2.1 英语基本短语识别概述 15 2.2 基于组块模型的基本短语识别 15-24 2.2.1 相关概念符号 15-16 2.2.2 词性标注 16-18 2.2.3 基本短语标注 18-24 2.3 实验 24-26 2.3.1 实验流程 24-25 2.3.2 词性标注性能测试结果 25 2.3.3 基本短语识别结果及性能 25-26 2.3.4 词性标注速度与基本短语识别速度 26 2.4 本章小结 26-28 第三章 音译词识别及其译文挖掘 28-43 3.1 音译词识别 28-35 3.1.1 两个音译词识别模型 28-31 3.1.2 最大熵模型识别音译词 31-32 3.1.3 实验 32-35 3.2 汉语音译词译文挖掘 35-42 3.2.1 通过上下文扩展获取Web页面文摘 35-37 3.2.2 抽取正确译文 37-40 3.2.3 实验设计及结果 40-42 3.3 本章小结 42-43 第四章 直译词和意译词分类研究 43-61 4.1 相关概念 43 4.2 问题的提出 43-45 4.3 语言学背景 45 4.4 基于分类策略直译词意译词识别 45-60 4.4.1 最大熵分类器及特征选择 46 4.4.2 语料库的构建 46-55 4.4.3 实验设计及结果分析 55-60 4.5 本章小结 60-61 第五章 基于可比较网页的名实体翻译对抽取 61-67 5.1 相关背景 61 5.2 上下文相关模型 61-64 5.2.1 利用概率P(C(c)|C(e))计算Sim(C(c),C(e)) 62-63 5.2.2 利用DICE系数计算Sim(C(c),C(e)) 63-64 5.3 实验 64-66 5.3.1 实验语料 64 5.3.2 预处理 64 5.3.3 名实体翻译抽取 64-65 5.3.4 实验结果及评价 65-66 5.4 错误分析 66 5.5 本章小结 66-67 第六章 总结与展望 67-69 6.1 本文总结 67 6.2 未来工作 67-69 参考文献 69-75 攻读学位期间公开发表的论文 75-76 致谢 76-77 详细摘要 77-79
|
相似论文
- 基于文本挖掘的翻译知识自动获取研究,TP391.1
- 跨语言信息检索查询翻译技术研究,TP391.3
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|