学位论文 > 优秀研究生学位论文题录展示
面向含有专业未登录词英汉平行语料句对齐的研究
作 者: 全丽丽
导 师: 丁华福
学 校: 哈尔滨理工大学
专 业: 计算机应用技术
关键词: 句对齐 双语语料库 专业未登录词 词干提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
自然语言处理是计算机科学领域与人工智能领域中的一个重要的方向,它能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。机器学习是自然语言处理研究的一个分支,而此研究的前提是具有一个大规模的英汉语料库。由于含有未登录词的英汉双语句对齐语料库相对贫乏,导致了机器翻译的非专业性以及不平衡性,这就是本文所研究的问题所在。本文的目的是设计并实现一个基于长度的英汉双语句对齐的系统,这个系统能够将英汉双语段对齐的文本具体到句对齐。本文的研究内容主要分为以下几个部分:首先,设计双语句对齐的评价函数,并以此为基础设计基于长度的双语句对齐算法和最优句对序列搜索算法。本文中选定中国知网(CNKI)作为英汉双语候选网站,下载英汉双语网页,对所下载页面进行分析后,去除网页标签等非文本内容,并存储双语文本信息,从而建立了基于段对齐的英汉双语语料库,并保留网页中英汉双语关键词。其次,从星际译王此款软件中提取词典,将原来的词典格式进行分析,转换成自定义的词典格式,方便双语句对齐系统更好的使用,将上一步中提取的英汉双语关键字也一并放入词典中,这样有助于扩大词典的数量、增加词汇的专业性。最后,提取已建立语料中的英文单词的词干,简化英文单词处理复杂度,也减少单词词性转换带来的噪声,并且提高运行效率。实现了基于长度的双语句对齐系统。最后调整系统参数进行对比实验,检验系统性能。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-19 1.1 研究背景及意义 11-13 1.1.1 研究背景 11-13 1.1.2 研究意义 13 1.2 国内外研究现状 13-17 1.2.1 双语平行语料库获取的研究现状 13-14 1.2.2 专业性未登录词双语译文对齐的研究现状 14-17 1.3 本文研究的主要内容 17-19 第2章 英汉双语句对齐概述 19-31 2.1 英汉双语句对齐的形式化定义 19-20 2.2 英汉双语句对齐度的评价函数 20-23 2.3 英汉双语句对齐的主要研究方法 23-30 2.3.1 基于长度的句对齐方法 23-27 2.3.2 基于词典的句对齐方法 27-28 2.3.3 基于混合性句对齐方法 28-29 2.3.4 基于 SVM 句对齐方法 29-30 2.4 本章小结 30-31 第3章 基于段对齐双语语料库的建立 31-41 3.1 语料库简介 31-32 3.2 双语平行语料库获取的基本模型 32 3.3 网页数据来源 32-34 3.4 Web 语料库的建设 34-36 3.4.1 网页获取技术 35-36 3.4.2 网页获取原理和实现 36 3.5 网络爬虫工具 36-38 3.5.1 Wget 爬虫工具的优点 37 3.5.2 Wget 使用的语法及基本参数 37 3.5.3 实验环境 37-38 3.5.4 设定下载目标 38 3.6 构建基于段对齐的双语语料库 38 3.7 实验结果 38-40 3.8 本章小结 40-41 第4章 英汉双语词典的获取 41-53 4.1 英汉双语词典介绍 41-42 4.2 英汉双语词典选择原则 42 4.3 对比双语词典 42-49 4.3.1 基本数据 42-43 4.3.2 词典数量 43-45 4.3.3 单词释义 45-47 4.3.4 内存消耗 47-49 4.4 词典数据 49 4.5 词典提取方法 49-51 4.6 实验结果 51-52 4.7 本章小结 52-53 第5章 含有专业未登录词的英汉双语句对齐 53-63 5.1 双语句对齐总体处理流程 53-54 5.2 基于长度的双语句对齐系统 54-57 5.2.1 提取词干 55-56 5.2.2 对段对齐的双语文本进行分句 56 5.2.3 句对齐情况分析 56 5.2.4 句对齐动态规划算法 56-57 5.3 实验准备工作 57-58 5.4 实验环境 58 5.4.1 计算机硬件配置 58 5.4.2 软件环境 58 5.5 GIZA++简介 58-60 5.5.1 GIZA++使用要点 58-59 5.5.2 GIZA++运行流程 59-60 5.6 评价指标 60-61 5.7 实验结果 61-62 5.8 本章小结 62-63 结论 63-64 参考文献 64-68 攻读硕士学位期间所发表的学术论文 68-69 致谢 69-70 附录 1 70-74 附录 2 74-76
|
相似论文
- 基于WEB的双语句对齐语料的获取和过滤,TP391.1
- 双语辅助翻译搜索引擎若干问题研究,TP391.3
- 统计机器翻译中语料选择方法研究,TP391.2
- IHSMTS中汉英双语句子对齐机制的设计与实现,TP391.2
- 多语种双语对齐平台的设计与实现,TP311.52
- 汉文—维吾尔文双语语料库构建的实验性研究,TP391.1
- 汉英双语语料库自动对齐研究,TP391.1
- 英汉双语短语对齐,H314.3
- 基于粒子群优化算法的汉英语句对齐研究,TP391.1
- 汉—哈萨克双语电子词典的设计与实现,TP311.52
- 网络双语语料挖掘关键技术研究,TP391.1
- 汉哈萨克双语平行语料库对齐方法研究,TP391.1
- 哈萨克语句子相似度计算方法的研究,TP391.1
- 智能双语搜索方法及搜索引擎的研究,TP391.3
- 基于语料库的维吾尔语词干提取和词性标注,TP391.1
- 搜索引擎的研究与实现,TP391.3
- 维吾尔文文本分类研究及系统开发,TP391.1
- 基于Python的维吾尔文文本聚类系统设计与实现,TP391.1
- 纳西汉语双语语料构建及智能输入法研究,TP391.1
- 论汉英平行语料的平行处理,H08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|