学位论文 > 优秀研究生学位论文题录展示

基于搜索引擎网页排序算法研究

作 者: 李宜兵
导 师: 和晓军
学 校: 沈阳理工大学
专 业: 计算机软件与理论
关键词: 搜索引擎 网页排序 HITS PageRank SPR算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 141次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着互联网技术的快速发展,搜索引擎技术随之诞生。人们总是希望通过搜索引擎找到最相关、最权威的网页,而搜索引擎网页排序算法的好坏直接关系到用户能否找到这样的网页。所以搜索引擎网页排序算法已经成为衡量商业搜索引擎是否具有核心竞争力的技术之一。本文介绍了搜索引擎的发展历史和工作原理,分析了网页排序算法对搜索引擎性能的重要影响,同时深入研究了现有的经典PageRank算法与HITS算法以及国内外相关的改进算法,并从这些算法中吸取相关思想、分析其中不足,从而提出了新的改进算法SPR。现有的网页排序算法主要是基于网页链接结构分析,代表算法有PageRank与HITS,而基于网页链接的排序算法只解决了网页的权威性问题,很容易造成查询主题的漂移,因此本文从网页内容相关性角度来解决主题漂移问题。PageRank算法平均分配权重的方法是不合理的,因此本文提出了按照网页流行度来进行权重分配的方法。综合网页链接结构与网页内容两方面改进经典的PageRank算法,从而得出本文的SPR算法。该算法模型从链接结构上解决权威性问题,并且它比经典的PageRank算法在传递网页权重时更具合理性;同时从网页内容的角度解决了主题相关性问题,削弱了主题漂移现象。本文最后通过构造一个搜索引擎模拟器,并利用经典的PageRank算法与本文改进的SPR算法分别得出搜索结果。同时设计出一个评测标准,利用此标准对上述两种算法的实验结果进行评测,最后通过对比分析评测结果进而肯定改进的SPR算法。

全文目录


摘要  5-6
Abstract  6-11
第1章 绪论  11-19
  1.1 研究背景与意义  11-12
  1.2 国内外相关技术发展现状  12-16
    1.2.1 搜索引擎诞生  12
    1.2.2 国外搜索引擎的发展  12-14
    1.2.3 国内搜索引擎发展  14-15
    1.2.4 搜索引擎网页排序研究现状  15-16
  1.3 搜索引擎网页排序问题  16
  1.4 本文研究内容  16-17
  1.5 本文的组织结构  17-19
第2章 搜索引擎概述  19-28
  2.1 搜索引擎概念  19-21
  2.2 搜索引擎分类  21
  2.3 搜索引擎的体系结构  21-25
    2.3.1 爬行器  22
    2.3.2 分析器  22-23
    2.3.3 索引器  23-24
    2.3.4 检索器  24-25
    2.3.5 用户接口  25
  2.4 搜索引擎性能指标  25-26
  2.5 本章小结  26-28
第3章 经典搜索引擎网页排序算法研究  28-43
  3.1 基于内容的排序  28-32
    3.1.1 向量空间模型VSM  28-31
    3.1.2 空间模型VSM优缺点  31-32
  3.2 基于链接分析的排序  32-40
    3.2.1 PageRank算法  34-37
    3.2.2 HITS算法  37-40
  3.3 排序算法效率研究  40-42
    3.3.1 查全率  40-41
    3.3.2 查准率  41-42
    3.3.3 相关性排序  42
  3.4 本章小结  42-43
第4章 综合改进的网页排序算法  43-53
  4.1 经典算法的缺点  43-45
    4.1.1 PageRank算法缺点  43-44
    4.1.2 HITS算法的缺点  44-45
  4.2 HITS算法与PageRank算法的比较  45-46
  4.3 现有的改进算法  46-48
    4.3.1 加速评估改进的PageRank算法  46
    4.3.2 Hilltop算法  46-47
    4.3.3 主题敏感PageRank算法  47-48
  4.4 基于网页链接与内容综合改进后的SPR算法  48-51
    4.4.1 基于网页内容改进  49-50
    4.4.2 等级沉淀修补  50-51
  4.5 SPR算法效率  51
  4.6 本章小结  51-53
第5章 实验系统建立与结果分析  53-71
  5.1 实验系统的构造  53-59
    5.1.1 网页搜集模块  53-55
    5.1.2 网页处理模块  55-56
    5.1.3 SPR算法离线计算模块  56-57
    5.1.4 索引与查询模块  57-59
  5.2 实验结果及其分析  59-70
    5.2.1 实验环境  60
    5.2.2 实验数据  60-63
    5.2.3 实验的评测标准  63-65
    5.2.4 相关测试结果  65-68
    5.2.5 SPR算法与TCPageRank算法实验结果比较  68-69
    5.2.6 实验数据分析  69-70
  5.3 本章小结  70-71
第6章 结论与展望  71-73
  6.1 结论  71-72
  6.2 展望  72-73
参考文献  73-76
攻读硕士学位期间发表的论文和取得的科研成果  76-77
致谢  77-78

相似论文

  1. 基于SVM分类算法的主题爬虫研究,TP391.3
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于语义网络的智能搜索引擎研究,TP391.3
  4. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  5. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  6. 主题搜索引擎关键技术研究,TP391.3
  7. 教育培训行业互联网营销问题的研究,F49
  8. 搜索引擎侵权行为研究,D923
  9. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  10. 基于Agent元搜索引擎的个性化研究,TP391.3
  11. 论搜索引擎竞价排名的法律规制,D923.43
  12. 搜索引擎悖论解读,G254
  13. 网络下载侵权分析,D923.41
  14. 基于链接结构分析的Web页面排序算法,TP393.092
  15. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  16. 基于领域知识的Deep Web接口发现研究,TP393.09
  17. 基于对等网络的搜索引擎关键技术研究,TP391.3
  18. 基于本体的智能答疑系统研究与实现,TP311.52
  19. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  20. 对搜索引擎扩充语义信息功能方法研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com