学位论文 > 优秀研究生学位论文题录展示

网络搜索引擎的相关技术研究

作 者: 史丛
导 师: 徐建国
学 校: 山东科技大学
专 业: 情报学
关键词: 搜索引擎 索引建立 查询扩展 相关网页排序
分类号: G354
类 型: 硕士论文
年 份: 2011年
下 载: 74次
引 用: 0次
阅 读: 论文下载
 

内容摘要


网络搜索引擎(如google、百度等)作为一种特殊的信息检索系统,其特殊之处就在于它的检索范围是针对整个Web网页资源的。互联网上的信息资源数量巨大、并且处于不断地变化更新当中,最为重要的是Web网页文档本身是半结构化或无结构的,其中经常包含导航、广告信息、无用链接等与网页主题无关的内容,其复杂程度远高于普通的文本文档。而一般的信息检索系统(如文献检索系统)大部分都是基于空间向量模型而设计的,无法适应Web资源的以上特性,这就使得网络搜索引擎与基于空间向量模型的信息检索系统在工作原理上会出现很大的不同。本文着重从索引建立、查询扩展、相关网页排序三个方面来阐述它们的不同之处。本文的主要内容是:详细介绍了网络搜索引擎索引组织结构,并针对Web网页中包含有大量无关信息如广告、导航等影响索引的效率的问题,给出了网页预处理及文本提取的实现算法,去除了Web网页文档中的重复网页、噪音内容以及噪音链接,提高了搜索引擎的索引效率。本文提出了结合用户兴趣和服务器端日志发掘的相关搜索的实现算法。针对传统PageRank算法会出现“主题漂移”现象,带来许多与用户所需信息无关的噪声信息的缺点,本文提出了基于页面主题相关性的PageRank算法,从网页的超链接、网页内容以及用户点击行为三个方面判断网页文档与查询主题相关性,进而避免出现过多的与检索主题不相关的网页信息。最后本文提出了一种自动摘要的实现算法,通过计算网页文档中每个句子的权重值,得到最能表达该网页主题内容的句子作为摘要反馈给用户,方便用户直观、快速地获取网页文档的主题内容,从而不断改进搜索关键词,检索出所需要的网页信息。

全文目录


摘要  5-6
ABSTRACT  6-10
1 引言  10-13
  1.1 课题背景  10-11
  1.2 研究内容  11
  1.3 组织结构  11-13
2 搜索引擎相关简介  13-23
  2.1 信息检索的定义  13
  2.2 信息检索性能评价  13-16
  2.3 搜索引擎的定义及分类  16-18
  2.4 网络搜索引擎的结构及工作原理  18-21
  2.5 网络搜索引擎的发展趋势  21-23
3 网络搜索引擎的索引分析  23-41
  3.1 信息检索模型  23-27
  3.2 索引的组织结构  27-30
  3.3 中文分词  30-31
  3.4 网络搜索引擎的索引过程  31-33
  3.5 网页预处理及文本提取的实现  33-41
4 网络搜索引擎的查询扩展  41-54
  4.1 查询扩展相关技术简介  41-45
  4.2 网络搜索引擎的查询扩展  45-47
  4.3 网络搜索引擎相关搜索的实现  47-54
5 网络搜索引擎的排序算法  54-65
  5.1 基于Web页面链接的排序算法  54-58
  5.2 PageRank算法不足  58-59
  5.3 基于页面主题相关性的PageRank的算法设计  59-62
  5.4 自动摘要算法设计  62-65
6 总结和展望  65-66
致谢  66-67
攻读硕士学位期间发表的学术论文  67-68
参考文献  68-70

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 分布式搜索引擎索引安全及缓存策略研究,TP333
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 教育培训行业互联网营销问题的研究,F49
  8. 搜索引擎侵权行为研究,D923
  9. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  10. 基于Agent元搜索引擎的个性化研究,TP391.3
  11. 论搜索引擎竞价排名的法律规制,D923.43
  12. 搜索引擎悖论解读,G254
  13. 基于搜索引擎网页排序算法研究,TP391.3
  14. 网络下载侵权分析,D923.41
  15. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  16. 基于领域知识的Deep Web接口发现研究,TP393.09
  17. 基于对等网络的搜索引擎关键技术研究,TP391.3
  18. 基于本体的智能答疑系统研究与实现,TP311.52
  19. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  20. 对搜索引擎扩充语义信息功能方法研究,TP391.3

中图分类: > 文化、科学、教育、体育 > 科学、科学研究 > 情报学、情报工作 > 情报检索
© 2012 www.xueweilunwen.com