学位论文 > 优秀研究生学位论文题录展示
基于维基百科的双语语料挖掘技术研究
作 者: 孟桂国
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机技术
关键词: 维基百科 双语网页 网页挖掘 双语句对 统计机器翻译
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 79次
引 用: 0次
阅 读: 论文下载
内容摘要
大规模双语平行或可比较语料库是构建高质量统计机器翻译系统的重要基础资源。目前大规模双语语料库的建设存在着很大的困难,在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文充分利用维基百科中大量存在的双语平行或可比较资源,研究自动获取的方法并验证其有效性,从而获取满足双语平行或可比较语料。从某个特定的网页中,需要定义一种启发式信息来概括这类多语种平行或可比较文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的资源。维基百科中双语平行或可比较资源是完全存在于两个平行或可比较的单语网页中。本文针对这种资源定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。网络作者在进行双语平行或可比较网页URL命名时往往具有一定的规律性。本文提出了一种自动发现一个具有URL命名规律性算法,从而从维基百科中找出尽可能多的可信的中英文候选网页配比对。双语平行或可比较的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关噪音信息等;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行或可比较网页进行句子对齐的难度。本文基于维基百科的网页结构,充分利用双语平行或可比较网页HTML结构相似性这一优点,提出了一种基于标签序列最长公共子串的DOM树对齐改进算法的双语平行或可比较句对的抽取技术,从而取得到了很好的效果。最后,我们实现了上述三个方面的技术,搭建了一个可以在维基百科上自动获取双语平行或可比较语料库的实验平台。
|
全文目录
中文摘要 4-5 Abstract 5-8 第一章 引言 8-22 1.1 概述 8-15 1.2 相关技术及资源 15-19 1.3 主要研究目标和内容 19-21 1.4 论文组织结构 21-22 第二章 基于维基百科的双语语料库挖掘的总体架构 22-26 2.1 基本流程 22-23 2.2 任务分析与界定 23-25 2.3 本章小结 25-26 第三章 中英文双语网页URL 获取 26-36 3.1 研究现状 26 3.2 网页间平行或可比较语料获取途径 26-27 3.3 网页解析与去噪声 27-28 3.4 双语平行或可比较网页URL 命名模板 28-34 3.5 获取具有 URL 命名相似性的双语候选网页算法 34-35 3.6 本章小结 35-36 第四章 中英文双语平行或可比较网页确认 36-43 4.1 相关研究 36-37 4.2 基于最大熵分类器的双语平行或可比较网页获取 37-42 4.3 本章小结 42-43 第五章 中英文双语平行或可比较句对挖掘 43-56 5.1 相关研究 43-44 5.2 双语平行或可比较句对挖掘模型 44-48 5.3 基于网页结构相似性的平行或可比较句对获取 48-55 5.4 本章小结 55-56 第六章 双语语料库挖掘实验平台 56-63 6.1 主要模块介绍 56-57 6.2 模块间的数据传递 57-58 6.3 实验性能评估 58 6.4 实验与分析 58-61 6.5 实验成果 61-62 6.6 本章小结 62-63 第七章 总结 63-66 7.1 总结 63-64 7.2 下一步工作 64-66 附录一 HTML特殊字符转换表 66-67 参考文献 67-71 攻读学位期间公开发表的论文 71-72 致谢 72-73
|
相似论文
- 面向统计机器翻译的解码算法的研究,TP391.2
- 基于维基百科的命名实体消歧研究,TP391.1
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于维基百科的语义比较,TP391.1
- 维基百科的网络结构及可信分析,TP393.02
- 交互式问答系统中的省略恢复研究,TP391.1
- 维基百科:精神交往理论研究的新进路,G206
- 基于信息论的特征加权和主题驱动协同聚类算法研究,TP18
- 面向问答的社区型知识抽取技术研究,TP391.1
- 基于Wikipedia的社会网络挖掘,TP311.13
- 企业经营范围自动分类及多语种经营范围术语自动获取,TP391.1
- 基于维基百科的搜索引擎检索结果聚类,TP391.3
- 维基百科上的语义搜索,TP391.3
- 基于维基的深度多标签多类别文本分类系统,TP391.1
- 科技文献语义标注系统研究,TP391.1
- 协同知识结构序化测度模型及演化规律研究,TP182
- 基于维基百科和web共现分析的概念关系网构建系统研究与实现,TP393.02
- 中文维基百科的结构化信息抽取及词语相关度计算,TP391.1
- 维基百科的人类行为动力学探讨,C912
- 基于维基百科的多文档自动摘要系统研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|