学位论文 > 优秀研究生学位论文题录展示
基于PageRank算法的搜索引擎优化策略研究
作 者: 张巍
导 师: 李志蜀
学 校: 四川大学
专 业: 计算机应用技术
关键词: 搜索引擎 Web 结构挖掘 超链接 PageRank
分类号: TP393.092
类 型: 硕士论文
年 份: 2005年
下 载: 1235次
引 用: 16次
阅 读: 论文下载
内容摘要
随着网络技术的迅猛发展,WWW 已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web 具有四个特点:庞大性、动态性、异构性、半结构化的数据结构环境。此外,Web还包含丰富和动态的超链接资源。面对Web 这些固有特点,人们要从这些海量的数据中查找数据和信息,使用最多的就是搜索引擎技术。Web 挖掘包含三个方面的内容:内容挖掘、结构挖掘和使用挖掘,本文主要涉及到其中的Web 结构挖掘。结构挖掘是从WWW 的组织结构、Web 文档结构和链接关系中推导知识。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web 自身的链接结构模式,通过分析和研究PageRank、HITS,TSPR 等基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的PageRank 算法,集中研究了该算法的形成思路、计算方法,并分析该算法在独立网站、包含索引页面、包含入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。然后概要介绍了java 版PageRank 计算程式的大体思路,并给出了通过本程序验证这些优化策略的实验结果。最后通过总结PageRank 算法的优缺点,引入了Topic Sensitive PageRank,Hilltop 等算法并做了简要介绍。Web 挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引
|
全文目录
1. 引言 9-28 1.1 搜索引擎技术分析 9-16 1.1.1 分类 10-14 1.1.1.1 基于Robot 的搜索引擎 11-13 1.1.1.2 目录搜索引擎 13 1.1.1.3 元搜索引擎 13-14 1.1.2 搜索引擎性能指标 14-16 1.2 Internet 搜索引擎发展演化历史 16-23 1.3 Web 挖掘浅析 23-28 1.3.1 Web 数据挖掘的引入 23-26 1.3.2 Web 结构挖掘(Web Structure Mining) 26-28 1.3.2.1 定义 26-27 1.3.2.2 应用 27-28 2. 基于链接结构的搜索引擎结果排序算法研究 28-49 2.1 HITS 29-33 2.1.1 算法解析 29-32 2.1.2 总结 32-33 2.2 PageRank 33-48 2.2.1 算法解析 34-39 2.2.2 基于PageRank 的优化策略 39-44 2.2.2.1 内部链接 39-42 2.2.2.2 入站链接 42-43 2.2.2.3 出站链接 43-44 2.2.3 算法效率研究 44-47 2.2.3.1 查全率(Recall Ratio) 44-45 2.2.3.2 查准率(Precision Ratio) 45-46 2.2.3.3 相关性排序(Relevant sort) 46-47 2.2.4 算法总结改进 47-48 2.3 HITS 算法与PageRank 算法比较 48-49 3. 算法模拟器开发及实验结果 49-58 3.1 算法模拟器 49-55 3.1.1 用户接口模块 50-53 3.1.2 算法逻辑模块 53-55 3.2 实验结果 55-58 4. 搜索技术发展动向 58-61 5. 总结 61-63 5.1 关于PageRank 算法 61 5.2 关于模拟器部分 61-62 5.3 小结 62-63 参考文献 63-66 附录A:PAGERANK 计算程序 66-80 附录B:模拟器BENCH 类UML 示意图 80-81 作者在研究生期间所做的工作 81-82 声明 82-83 致谢 83
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 面向Web社会网络的分析工具,TP393.09
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 基于链接结构分析的Web页面排序算法,TP393.092
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|