学位论文 > 优秀研究生学位论文题录展示

基于改进向量空间模型的网络信息检索研究

作 者: 李静
导 师: 王小捷
学 校: 北京邮电大学
专 业: 信息检索
关键词: 向量空间模型 特征权重 概念检索 查询扩展
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 37次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算技术和网络技术的迅速发展,网络信息飞速增长,网络信息检索成为人们快速、有效获取所需信息的关键。向量空间模型是信息检索中的一个重要技术,得到了非常广泛的应用,但是也存在着一些不足。本文针对向量空间模型存在的两个重要不足,分别进行了改进。其一是对特征权重计算方法的改进。通过在传统的基于词频—倒排文档频率(tfidf)计算方法的基础上综合考虑类别区分信息,从而提出了一种新的权重计算方法;其二是利用语义资源Hownet,构建对查询向量各特征的语义扩展,从而将向量特征之间的概念关联信息纳入可以建模的范围,实现了一个基于概念的语义检索模型。实验结果表明,这两个改进均有效地提高了信息检索的性能。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-16
  1.1 信息检索概述  9-10
  1.2 信息检索技术的现状  10-15
    1.2.1 网络信息检索工具  11-12
    1.2.2 常用信息检索模型简述  12-14
    1.2.3 信息检索的性能指标  14-15
  1.3 本文工作和内容安排  15-16
第二章 信息检索模型  16-22
  2.1 基于关键词的信息检索模型  16-19
    2.1.1 布尔模型  16-17
    2.1.2 向量空间模型  17-18
    2.1.3 概率模型  18-19
  2.2 概念检索模型  19-20
  2.3 基于案例的检索模型  20
  2.4 基于超链分析的检索模型  20-22
第三章 基于语义的概念检索  22-37
  3.1 概念树  22
  3.2 词语相似度及其计算方法  22-26
    3.2.1 词语相似度的概念  22-23
    3.2.2 词语相似度与词语距离  23-24
    3.2.3 词语相似度与词语相关性  24
    3.2.4 词语相似度的计算方法  24-26
  3.3 Hownet(知网)  26-31
    3.3.1 Hownet(知网)的结构  26-29
    3.3.2 Hownet(知网)的知识描述语言  29-31
  3.4 基于知网的语义相似度计算方法  31-34
    3.4.1 词语相似度计算  31
    3.4.2 义原相似度计算  31-32
    3.4.3 虚词概念的相似度的计算  32
    3.4.4 实词概念的相似度的计算  32-34
  3.5 基于语义的信息检索模型框架  34-35
  3.6 语义概念检索扩展  35-37
    3.6.1 查询扩展方式  35
    3.6.2 查询扩展过程  35-37
第四章 向量空间模型检索的改进  37-44
  4.1 用关键词——向量空间模型检索的局限性  37-38
    4.1.1 特征权重的类别  37-38
    4.1.2 向量特征的独立性  38
  4.2 基于特征权重的改进实验  38-40
    4.2.1 特征与类别的关系  38-39
    4.2.2 改进的特征权重计算方法  39
    4.2.3 实验结果与分析  39-40
  4.3 基于向量特征的独立性的改进实验  40-44
    4.3.1 基于关键词检索的向量空间模型构建  40-41
    4.3.2 基于语义概念检索的向量空间模型  41-42
    4.3.3 关键性与语义概念结合的检索方法  42
    4.3.4 实验及结果分析  42-43
    4.3.5 实验总结  43-44
第五章 总结  44-46
参考文献  46-48
攻读硕士学位期间所发表的学术论文  48-49
致谢  49

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于停用词处理的汉语语音检索方法,TP391.1
  3. 基于SVM分类算法的主题爬虫研究,TP391.3
  4. 网络搜索引擎的相关技术研究,G354
  5. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  6. 面向汽车行业的主题爬虫研究与实现,TP391.3
  7. 面向短消息文本的聚类技术研究与应用,TP391.1
  8. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  9. Web新闻热点发现系统的设计与实现,TP393.09
  10. 多角色社交网络研究,TP393.09
  11. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  12. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  13. 英汉跨语言问答系统中的文档语义检索,TP391.1
  14. 中文文本倾向性分类系统研究,TP391.1
  15. 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
  16. 基于ICVSM的摘要抽取算法研究,TP391.1
  17. 以博客内容为对象的个性化搜索研究,TP391.3
  18. 基于不完全约束的XML查询处理关键技术研究,TP311.10
  19. 主题搜索引擎的研究与设计,TP391.3
  20. 基于本体的语义查询扩展研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com