学位论文 > 优秀研究生学位论文题录展示
基于改进向量空间模型的网络信息检索研究
作 者: 李静
导 师: 王小捷
学 校: 北京邮电大学
专 业: 信息检索
关键词: 向量空间模型 特征权重 概念检索 查询扩展
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算技术和网络技术的迅速发展,网络信息飞速增长,网络信息检索成为人们快速、有效获取所需信息的关键。向量空间模型是信息检索中的一个重要技术,得到了非常广泛的应用,但是也存在着一些不足。本文针对向量空间模型存在的两个重要不足,分别进行了改进。其一是对特征权重计算方法的改进。通过在传统的基于词频—倒排文档频率(tfidf)计算方法的基础上综合考虑类别区分信息,从而提出了一种新的权重计算方法;其二是利用语义资源Hownet,构建对查询向量各特征的语义扩展,从而将向量特征之间的概念关联信息纳入可以建模的范围,实现了一个基于概念的语义检索模型。实验结果表明,这两个改进均有效地提高了信息检索的性能。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-16 1.1 信息检索概述 9-10 1.2 信息检索技术的现状 10-15 1.2.1 网络信息检索工具 11-12 1.2.2 常用信息检索模型简述 12-14 1.2.3 信息检索的性能指标 14-15 1.3 本文工作和内容安排 15-16 第二章 信息检索模型 16-22 2.1 基于关键词的信息检索模型 16-19 2.1.1 布尔模型 16-17 2.1.2 向量空间模型 17-18 2.1.3 概率模型 18-19 2.2 概念检索模型 19-20 2.3 基于案例的检索模型 20 2.4 基于超链分析的检索模型 20-22 第三章 基于语义的概念检索 22-37 3.1 概念树 22 3.2 词语相似度及其计算方法 22-26 3.2.1 词语相似度的概念 22-23 3.2.2 词语相似度与词语距离 23-24 3.2.3 词语相似度与词语相关性 24 3.2.4 词语相似度的计算方法 24-26 3.3 Hownet(知网) 26-31 3.3.1 Hownet(知网)的结构 26-29 3.3.2 Hownet(知网)的知识描述语言 29-31 3.4 基于知网的语义相似度计算方法 31-34 3.4.1 词语相似度计算 31 3.4.2 义原相似度计算 31-32 3.4.3 虚词概念的相似度的计算 32 3.4.4 实词概念的相似度的计算 32-34 3.5 基于语义的信息检索模型框架 34-35 3.6 语义概念检索扩展 35-37 3.6.1 查询扩展方式 35 3.6.2 查询扩展过程 35-37 第四章 向量空间模型检索的改进 37-44 4.1 用关键词——向量空间模型检索的局限性 37-38 4.1.1 特征权重的类别 37-38 4.1.2 向量特征的独立性 38 4.2 基于特征权重的改进实验 38-40 4.2.1 特征与类别的关系 38-39 4.2.2 改进的特征权重计算方法 39 4.2.3 实验结果与分析 39-40 4.3 基于向量特征的独立性的改进实验 40-44 4.3.1 基于关键词检索的向量空间模型构建 40-41 4.3.2 基于语义概念检索的向量空间模型 41-42 4.3.3 关键性与语义概念结合的检索方法 42 4.3.4 实验及结果分析 42-43 4.3.5 实验总结 43-44 第五章 总结 44-46 参考文献 46-48 攻读硕士学位期间所发表的学术论文 48-49 致谢 49
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- 基于ICVSM的摘要抽取算法研究,TP391.1
- 以博客内容为对象的个性化搜索研究,TP391.3
- 基于不完全约束的XML查询处理关键技术研究,TP311.10
- 主题搜索引擎的研究与设计,TP391.3
- 基于本体的语义查询扩展研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|