学位论文 > 优秀研究生学位论文题录展示
基于中间语义的跨语言信息检索研究
作 者: 黄国斌
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机系统结构
关键词: 中间语义 跨语言信息检索 偏最小二乘 潜在语义变量对
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 116次
引 用: 2次
阅 读: 论文下载
内容摘要
随着国际互联网的快速发展,Internet上信息资源类型和数量都愈来愈丰富,所使用的语言亦愈来愈具有多样性和不平衡性;同时随着网络用户数量与范围的急剧膨胀,其所掌握的语言也开始呈现多样化。由于网络资源语种的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍,例如网络中65 %以上的信息都是英语信息,而使用英文的网络用户仅占约30 % ,这给非英语国家用户利用网络信息带来了极大的不便。不仅在互联网中,在所有同时存在多语种的信息系统(如数字图书馆)中,这种语言障碍都限制了人们对信息的有效获取,影响了多语种信息价值的充分发挥。从上世纪90年代末开始,人们对信息检索提出了更高的要求,即不再满足于在同一语种中进行检索,而要求在检索结果中包含多种语种的相关信息。为解决人们在从多语种信息系统中获取信息的过程中存在的语言障碍问题,研究学者提出了使用一种语言即可以方便地检索出系统中存在的所有语种相关信息的方法和技术,称为跨语言信息检索(Cross-Language Information Retrieval ,CLIR)技术。基于辞典的模式和机器系统翻译的技术一度成为人们进行跨语言信息检索的热点研究技术。基于辞典的模式就是采用机读辞典来做翻译,这里主要的问题是词汇的歧义性,一个词汇可能有多重意义,因此产生类似一般机器翻译系统选词的问题。另一个问题是辞典本身的覆盖度不够,动态的专有名词如人名、地名、机构名称等日新月异,很有可能在翻译过程中在辞典中找不到。而机器系统的翻译主要是针对文档翻译进行的,文档翻译的缺点是执行效率不高,翻译往往不够确切。为解决上述问题,我们提出了一种基于偏最小二乘理论的中间语义的跨语言信息检索方法。实验结果显示,基于中间语义的跨语言信息检索方法具有良好的特性。本文的创新之处有:第一,利用改进的偏最小二乘理论技术,提出了基于中间语义的跨语言信息检索模型;第二,建立了一定的中英文平行语料库,为以后扩充中英文平行语料库打下来了一定的基础。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 引言 8-11 1.1 研究背景 8-9 1.2 本文工作 9-10 1.3 论文组织 10-11 第二章 信息检索概述 11-26 2.1 信息检索简介 11-12 2.2 信息检索的基本流程 12-13 2.3 信息检索评价 13-15 2.3.1 检索精度和召回率 13-14 2.3.2 前n 选精度 14 2.3.3 11 点平均精度和3 点平均精度 14-15 2.3.4 F-measure 指标 15 2.3.5 P x R 指标 15 2.4 测试文档集 15-16 2.5 IR 模型:Boolean、VSM、PM、LM 16-26 2.5.1 布尔模型 17-18 2.5.2 向量空间模型 18-21 2.5.3 概率模型 21-24 2.5.4 语言模型 24-26 第三章 跨语言信息检索概述 26-33 3.1 跨语言信息检索概念 26 3.2 跨语言信息检索研究现状 26-28 3.3 跨语言信息检索常用方法 28-30 3.4 跨语言信息检索的关键技术 30-32 3.5 跨语言信息检索的基本构架 32-33 第四章 偏最小二乘理论 33-39 4.1 偏最小二乘回归 33 4.2 模型工作目标 33-34 4.3 计算方法推导 34-37 4.3.1 标准化处理 34 4.3.2 算法推导步骤一 34-36 4.3.3 算法推导步骤二 36-37 4.4 成分确定方法 37-39 第五章 基于中间语义的跨语言信息检索 39-45 5.1 基于中间语义的跨语言信息检索模型设计 39 5.2 模型原理 39-41 5.3 数学推导 41-42 5.4 中间语义对模型提取算法 42-43 5.5 基于中间语义的跨语言信息检索 43-45 第六章 实验设计和分析 45-53 6.1 实验设计 45 6.2 数据集 45-46 6.3 实验过程 46-47 6.4 实验结果及分析 47-53 第七章 总结 53-54 7.1 论文总结 53 7.2 未来工作展望 53-54 参考文献 54-57 致谢词 57
|
相似论文
- 朝阳地区参考作物腾发量演变特征与预测模型研究,S161.4
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- Logistic回归多重共线性的诊断与改进及其在医学中的应用,R195
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 乙肝病毒性肝硬化的血清代谢轮廓分析,R512.62
- 偏最小二乘回归与判别分析在科技人员类型及影响因素研究中的应用,G644
- 基于偏最小二乘的武汉城市圈经济研究,F299.2
- 紫外法水质COD检测的理论与实验研究,X832
- 近红外光谱快速检测牛奶品质的研究,TS251
- 基于偏最小二乘的高炉铁水硅含量预测研究,TF325.6
- 差压式重介悬浮液密度与粘度一体化测量方法研究,TD94
- 固定床间歇煤气化工艺的分析,TQ546
- 压电传感器真菌鉴定中的应用及镍和柠檬酸配位研究,R446.5
- 基于近红外光谱技术的蔬菜中农药残留量检测方法研究,TP274
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 钢铁行业上市公司收益质量动态测量研究,F275
- 基于多向偏最小二乘的间歇过程软测量建模研究,N945.12
- 基于独立成分分析的多元回归方法研究,O212.1
- 近红外光谱技术在鱼粉质量快速鉴定中的应用,TS254.7
- 形状记忆合金复合薄板的非线性动力学研究,TG139.6
- 纤维素焊条工艺性分析评价,TG422.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|