学位论文 > 优秀研究生学位论文题录展示

基于PageRank算法的搜索引擎优化策略研究

作 者: 张巍
导 师: 李志蜀
学 校: 四川大学
专 业: 计算机应用技术
关键词: 搜索引擎 Web 结构挖掘 超链接 PageRank
分类号: TP393.092
类 型: 硕士论文
年 份: 2005年
下 载: 1235次
引 用: 16次
阅 读: 论文下载
 

内容摘要


随着网络技术的迅猛发展,WWW 已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web 具有四个特点:庞大性、动态性、异构性、半结构化的数据结构环境。此外,Web还包含丰富和动态的超链接资源。面对Web 这些固有特点,人们要从这些海量的数据中查找数据和信息,使用最多的就是搜索引擎技术。Web 挖掘包含三个方面的内容:内容挖掘、结构挖掘和使用挖掘,本文主要涉及到其中的Web 结构挖掘。结构挖掘是从WWW 的组织结构、Web 文档结构和链接关系中推导知识。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web 自身的链接结构模式,通过分析和研究PageRank、HITS,TSPR 等基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的PageRank 算法,集中研究了该算法的形成思路、计算方法,并分析该算法在独立网站、包含索引页面、包含入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。然后概要介绍了java 版PageRank 计算程式的大体思路,并给出了通过本程序验证这些优化策略的实验结果。最后通过总结PageRank 算法的优缺点,引入了Topic Sensitive PageRank,Hilltop 等算法并做了简要介绍。Web 挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引

全文目录


1. 引言  9-28
  1.1 搜索引擎技术分析  9-16
    1.1.1 分类  10-14
      1.1.1.1 基于Robot 的搜索引擎  11-13
      1.1.1.2 目录搜索引擎  13
      1.1.1.3 元搜索引擎  13-14
    1.1.2 搜索引擎性能指标  14-16
  1.2 Internet 搜索引擎发展演化历史  16-23
  1.3 Web 挖掘浅析  23-28
    1.3.1 Web 数据挖掘的引入  23-26
    1.3.2 Web 结构挖掘(Web Structure Mining)  26-28
      1.3.2.1 定义  26-27
      1.3.2.2 应用  27-28
2. 基于链接结构的搜索引擎结果排序算法研究  28-49
  2.1 HITS  29-33
    2.1.1 算法解析  29-32
    2.1.2 总结  32-33
  2.2 PageRank  33-48
    2.2.1 算法解析  34-39
    2.2.2 基于PageRank 的优化策略  39-44
      2.2.2.1 内部链接  39-42
      2.2.2.2 入站链接  42-43
      2.2.2.3 出站链接  43-44
    2.2.3 算法效率研究  44-47
      2.2.3.1 查全率(Recall Ratio)  44-45
      2.2.3.2 查准率(Precision Ratio)  45-46
      2.2.3.3 相关性排序(Relevant sort)  46-47
    2.2.4 算法总结改进  47-48
  2.3 HITS 算法与PageRank 算法比较  48-49
3. 算法模拟器开发及实验结果  49-58
  3.1 算法模拟器  49-55
    3.1.1 用户接口模块  50-53
    3.1.2 算法逻辑模块  53-55
  3.2 实验结果  55-58
4. 搜索技术发展动向  58-61
5. 总结  61-63
  5.1 关于PageRank 算法  61
  5.2 关于模拟器部分  61-62
  5.3 小结  62-63
参考文献  63-66
附录A:PAGERANK 计算程序  66-80
附录B:模拟器BENCH 类UML 示意图  80-81
作者在研究生期间所做的工作  81-82
声明  82-83
致谢  83

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 分布式搜索引擎索引安全及缓存策略研究,TP333
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 面向教育新闻的主题爬虫设计与实现,TP391.3
  8. 主题搜索引擎关键技术研究,TP391.3
  9. 教育培训行业互联网营销问题的研究,F49
  10. 搜索引擎侵权行为研究,D923
  11. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  12. 基于Agent元搜索引擎的个性化研究,TP391.3
  13. 论搜索引擎竞价排名的法律规制,D923.43
  14. 搜索引擎悖论解读,G254
  15. 面向Web社会网络的分析工具,TP393.09
  16. 基于搜索引擎网页排序算法研究,TP391.3
  17. 网络下载侵权分析,D923.41
  18. 基于链接结构分析的Web页面排序算法,TP393.092
  19. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  20. 基于领域知识的Deep Web接口发现研究,TP393.09
  21. 基于对等网络的搜索引擎关键技术研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com