学位论文 > 优秀研究生学位论文题录展示
基于链接相似度的网页排序算法研究
作 者: 方旭
导 师: 王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 链接相似度 网页排序 链接分析 PageRank 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 259次
引 用: 2次
阅 读: 论文下载
内容摘要
本文主要讨论网页排序相关算法,重点讨论了链接分析技术。首先,介绍了网页排序的基本原理,对几种较为常用的网页排序技术进行了对比分析;着重剖析了两种典型的链接分析算法:PageRank和HITS,分析了它们各自的优劣。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,没有很好地考虑语义信息,很容易受到无关链接的影响,产生主题漂移。本文设计了一个简单的计算模型改进PageRank算法,该计算模型在PageRank算法平均分配的基础之上,考虑了链接相似度信息,并利用朴素贝叶斯模型对链接相似度信息进行评估。由于考虑了出链接与目标网页相似度信息,使得那些没有价值的页面(广告页面)被分得较少的PageRank值,提升了真正有价值的页面所分得的PageRank值。最后,本文应用上述模型实现了一个模拟的搜索引擎。该模拟系统包含了搜索引擎的几乎全部功能,并在互联网真实环境下请一些用户进行实际测试,对上述算法进行验证。小范围用户测试结果表明:融入了链接相似度信息之后,提升了搜索结果的用户满意度。
|
全文目录
摘要 3-4 Abstract 4-5 目录 5-8 1 绪论 8-13 1.1 研究背景和意义 8-9 1.2 基本概念 9-10 1.2.1 网页排序 9 1.2.2 链接分析 9-10 1.2.3 链接相似度 10 1.3 链接分析的发展与现状 10-11 1.4 论文的工作 11-12 1.5 章节安排 12-13 2 网页排序 13-21 2.1 词频位置加权排序 13-14 2.1.1 原理 13-14 2.1.2 评价 14 2.2 Direct Hit算法 14-16 2.2.1 原理 14-15 2.2.2 评价 15-16 2.3 链接分析算法 16 2.3.1 原理 16 2.3.2 评价 16 2.4 竞价排名 16-18 2.4.1 原理 17 2.4.2 评价 17-18 2.5 相似度算法 18-19 2.5.1 原理 18-19 2.5.2 评价 19 2.6 网页排序技术发展 19-20 2.7 小结 20-21 3 链接分析 21-32 3.1 链接分析模型 21 3.2 PageRank算法 21-25 3.2.1 思想 21-22 3.2.2 定义 22 3.2.3 修正 22-23 3.2.4 计算 23-24 3.2.5 分析 24-25 3.3 HITS算法 25-28 3.3.1 思想 25-26 3.3.2 定义 26 3.3.3 计算 26-27 3.3.4 分析 27-28 3.4 其它链接分析算法 28-31 3.4.1 Hub平均算法 28-29 3.4.2 阈值算法 29 3.4.3 ARC算法 29 3.4.4 PHITS算法 29-30 3.4.5 SALSA算法 30 3.4.6 贝叶斯算法 30 3.4.7 Average算法和Sim算法 30-31 3.5 小结 31-32 4 利用链接相似度改进PageRank算法 32-48 4.1 PageRank存在的问题 32-33 4.1.1 忽视新网页 32 4.1.2 忽视普通网页 32 4.1.3 忽略网页之间的相关性 32 4.1.4 容易出现主题漂移 32-33 4.2 现有的改进方法 33-35 4.2.1 计算页面等级得分的PageRank算法 33 4.2.2 主题相关的PageRank算法 33 4.2.3 PageRank-Pro算法 33-34 4.2.4 dPageRank算法 34-35 4.3 融入链接相似度的PageRank算法 35-37 4.4 模拟系统实现 37-47 4.4.1 网页抓取阶段 38-40 4.4.2 规范化预处理阶段 40 4.4.3 生成网络拓扑结构图 40-41 4.4.4 PageRank值初始化 41 4.4.5 计算PageRank值 41-44 4.4.6 倒排索引 44-45 4.4.7 查询服务 45-47 4.4.8 结果分析 47 4.5 小结 47-48 5 用户测试 48-58 5.1 实验环境 48 5.2 实验数据 48-50 5.3 测试设计与结果分析 50-57 5.3.1 评价标准 50-52 5.3.2 测试结果 52-53 5.3.3 分析讨论 53-57 5.4 小结 57-58 6 总结与展望 58-60 6.1 本文的主要工作和研究成果 58 6.2 需要完善的工作和未来工作展望 58-60 致谢 60-61 参考文献 61-63
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 基于链接结构分析的Web页面排序算法,TP393.092
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
- 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
- 对搜索引擎扩充语义信息功能方法研究,TP391.3
- 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|