学位论文 > 优秀研究生学位论文题录展示
汉语词语语义相似度度量及其在跨语言信息检索中的应用研究
作 者: 彭琳
导 师: 张玥杰
学 校: 复旦大学
专 业: 计算机应用技术
关键词: 汉语语义相似度 跨语言信息检索 HowNet 词义消歧 查询扩展
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 188次
引 用: 1次
阅 读: 论文下载
内容摘要
作为自然语言理解的一项基础工作,词语语义相似度度量一直是研究的重点。语义相似度度量本身是一个中间任务,它是大多数自然语言处理任务中一个必不可少的中间层次,在自然语言处理中有着广泛的应用,如词义消歧、信息检索以及机器翻译等。本文的核心内容是汉语词语语义相似度算法研究以及如何将其应用于跨语言信息检索(Cross-Language Information Retrieval, CLIR)领域。本文首先对语义相似度度量算法进行综述,然后重点描述基于HowNet的语义相似度度量算法,提出根据知识词典描述语言(Knowledge Dictionary Mark-up Language, KDML)的结构特性将词语语义相似度分为三部分进行计算,每部分采用最大匹配的算法,同时加入义原深度信息以区别对待不同信息含量的义原。较以往同类算法,其计算结果具有区分度,更加符合人的主观感觉。本文尝试将所建立的汉语语义相似度度量模式应用于跨语言信息检索系统。跨语言信息检索结合传统文本信息检索技术和机器翻译技术,在多方面涉及到语义问题,是语义相似度良好的切入点。两者的结合主要体现在两方面:(1)将语义相似度度量应用于查询翻译,利用语义相似度对查询关键词进行消歧翻译,提高翻译质量;(2)将语义相似度应用于查询扩展,使扩展内容与原查询具有更高相关性,以提高检索的召回率和准确率。本文提出相对客观的评价标准,如为单独衡量词义消歧的性能,而使用第三届词义消歧系统评价会议(The 3rd Evaluating Word Sense Disambiguation Systems, SENSEVAL-3)语料进行测试;为衡量应用语义相似度于跨语言检索后的性能,又使用第九届文本检索会议(The 9th Text Retrieval Conference, TREC-9) CLIR评价任务的查询集、语料库和结果集进行评估。这使得我们的实验结果相对公正客观,具有一定可比性。本文对原有英汉跨语言信息检索系统进行一定程度的改进,使得各种相关算法都可方便地在系统中进行集成,成为一个研究跨语言信息检索的实验平台,其系统的设计思想充分体现模块化和扩展性。综上,本文通过综合分析主流的语义相似度算法,而提出一种新的基于HowNet的汉语语义相似度算法,并给出其在英汉跨语言信息检索中的尝试性应用,希望能给相关领域的研究者有所借鉴。
|
全文目录
目录 3-6 摘要 6-7 ABSTRACT 7-9 第一章 引言 9-17 1.1 本文研究背景与意义 9-10 1.2 语义相似度研究概览 10-11 1.3 基于统计的方法 11-13 1.3.1 常用的语料库 11 1.3.2 基于向量空间模型的方法 11-12 1.3.3 基于相关熵的方法 12 1.3.4 基于互信息的方法 12-13 1.4 基于机器可读词典的方法 13-15 1.4.1 常用的机器可读词典 13-14 1.4.2 基于《同义词词林》的方法 14-15 1.4.3 基于HowNet的方法 15 1.4.4 基于HowNet与《同义词词林》-的混合方法 15 1.5 本文研究工作概述 15-16 1.6 本文的组织结构 16-17 第二章 HOWNET简介 17-26 2.1 HOWNET的提出 17-18 2.2 HOWNET系统概貌 18-22 2.2.1 HowNet中的义原 18-19 2.2.2 HowNet中的概念 19-21 2.2.3 HowNet中的记录 21-22 2.3 KDML语言 22-25 2.4 本章小结 25-26 第三章 基于HOWNET的汉语语义相似度 26-35 3.1 义原相似度度量 26-27 3.2 语义相似度度量 27-32 3.2.1 刘群的方法 28-29 3.2.2 李峰的方法 29-30 3.2.3 董强的方法 30 3.2.4 本文的方法 30-32 3.3 基于语义相似度的词义消歧算法 32-34 3.4 本章小结 34-35 第四章 语义相似度度量在跨语言信息检索中的应用 35-40 4.1 跨语言信息检索简介 35-37 4.1.1 跨语言信息检索的优化技术 36-37 4.2 语义相似度度量在跨语言信息检索中的应用 37-39 4.3 本章小结 39-40 第五章 系统实现及实验 40-53 5.1 跨语言信息检索系统架构 40-43 5.1.1 Lucene模块 40-42 5.1.2 HowNet模块 42-43 5.2 汉语词语语义相似度度量实验 43-46 5.2.1 数据来源 43 5.2.2 评测指标 43 5.2.3 实验结果 43-44 5.2.4 分析与讨论 44-46 5.3 应用汉语词语语义相似度度量的词义消歧实验 46-48 5.3.1 数据来源 46 5.3.2 评测指标 46 5.3.3 实验结果 46-47 5.3.4 分析与讨论 47-48 5.4 应用词语语义相似度度量的跨语言信息检索实验 48-52 5.4.1 实验目的 48 5.4.2 数据来源 48 5.4.3 评测指标 48-49 5.4.4 实验结果 49-51 5.4.5 实验结果分析 51-52 5.5 本章小结 52-53 第六章 总结与展望 53-55 6.1 本文总结 53-54 6.2 未来研究内容 54-55 参考文献 55-58 攻读学位期间参加的科研项目与发表的论文 58-59 致谢 59-60
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 结合本体HowNet的中文文本分类研究,TP391.1
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 基于改进向量空间模型的网络信息检索研究,TP391.3
- 基于本体的语义查询扩展研究,TP391.3
- 基于本体的个性化信息系统的应用研究,F49
- 基于查询扩展的垂直搜索研究,TP391.3
- 面向查询的XML文本摘要技术,TP391.1
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 基于本体的文本信息检索技术研究与实现,TP391.3
- 基于查询扩展的油田网络舆情监控系统,TP393.09
- 基于本体的语义搜索技术研究与实现,TP391.3
- 基于领域本体扩展查询的文本信息检索研究,TP391.3
- 基于Markov团的信息检索扩展模型,TP391.3
- 基于复述的问题扩展技术研究,TP391.2
- 基于本体的构件测试信息语义检索方法的研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|