学位论文 > 优秀研究生学位论文题录展示

基于链接相似度的网页排序算法研究

作 者: 方旭
导 师: 王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 链接相似度 网页排序 链接分析 PageRank 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 259次
引 用: 2次
阅 读: 论文下载
 

内容摘要


本文主要讨论网页排序相关算法,重点讨论了链接分析技术。首先,介绍了网页排序的基本原理,对几种较为常用的网页排序技术进行了对比分析;着重剖析了两种典型的链接分析算法:PageRank和HITS,分析了它们各自的优劣。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,没有很好地考虑语义信息,很容易受到无关链接的影响,产生主题漂移。本文设计了一个简单的计算模型改进PageRank算法,该计算模型在PageRank算法平均分配的基础之上,考虑了链接相似度信息,并利用朴素贝叶斯模型对链接相似度信息进行评估。由于考虑了出链接与目标网页相似度信息,使得那些没有价值的页面(广告页面)被分得较少的PageRank值,提升了真正有价值的页面所分得的PageRank值。最后,本文应用上述模型实现了一个模拟的搜索引擎。该模拟系统包含了搜索引擎的几乎全部功能,并在互联网真实环境下请一些用户进行实际测试,对上述算法进行验证。小范围用户测试结果表明:融入了链接相似度信息之后,提升了搜索结果的用户满意度。

全文目录


摘要  3-4
Abstract  4-5
目录  5-8
1 绪论  8-13
  1.1 研究背景和意义  8-9
  1.2 基本概念  9-10
    1.2.1 网页排序  9
    1.2.2 链接分析  9-10
    1.2.3 链接相似度  10
  1.3 链接分析的发展与现状  10-11
  1.4 论文的工作  11-12
  1.5 章节安排  12-13
2 网页排序  13-21
  2.1 词频位置加权排序  13-14
    2.1.1 原理  13-14
    2.1.2 评价  14
  2.2 Direct Hit算法  14-16
    2.2.1 原理  14-15
    2.2.2 评价  15-16
  2.3 链接分析算法  16
    2.3.1 原理  16
    2.3.2 评价  16
  2.4 竞价排名  16-18
    2.4.1 原理  17
    2.4.2 评价  17-18
  2.5 相似度算法  18-19
    2.5.1 原理  18-19
    2.5.2 评价  19
  2.6 网页排序技术发展  19-20
  2.7 小结  20-21
3 链接分析  21-32
  3.1 链接分析模型  21
  3.2 PageRank算法  21-25
    3.2.1 思想  21-22
    3.2.2 定义  22
    3.2.3 修正  22-23
    3.2.4 计算  23-24
    3.2.5 分析  24-25
  3.3 HITS算法  25-28
    3.3.1 思想  25-26
    3.3.2 定义  26
    3.3.3 计算  26-27
    3.3.4 分析  27-28
  3.4 其它链接分析算法  28-31
    3.4.1 Hub平均算法  28-29
    3.4.2 阈值算法  29
    3.4.3 ARC算法  29
    3.4.4 PHITS算法  29-30
    3.4.5 SALSA算法  30
    3.4.6 贝叶斯算法  30
    3.4.7 Average算法和Sim算法  30-31
  3.5 小结  31-32
4 利用链接相似度改进PageRank算法  32-48
  4.1 PageRank存在的问题  32-33
    4.1.1 忽视新网页  32
    4.1.2 忽视普通网页  32
    4.1.3 忽略网页之间的相关性  32
    4.1.4 容易出现主题漂移  32-33
  4.2 现有的改进方法  33-35
    4.2.1 计算页面等级得分的PageRank算法  33
    4.2.2 主题相关的PageRank算法  33
    4.2.3 PageRank-Pro算法  33-34
    4.2.4 dPageRank算法  34-35
  4.3 融入链接相似度的PageRank算法  35-37
  4.4 模拟系统实现  37-47
    4.4.1 网页抓取阶段  38-40
    4.4.2 规范化预处理阶段  40
    4.4.3 生成网络拓扑结构图  40-41
    4.4.4 PageRank值初始化  41
    4.4.5 计算PageRank值  41-44
    4.4.6 倒排索引  44-45
    4.4.7 查询服务  45-47
    4.4.8 结果分析  47
  4.5 小结  47-48
5 用户测试  48-58
  5.1 实验环境  48
  5.2 实验数据  48-50
  5.3 测试设计与结果分析  50-57
    5.3.1 评价标准  50-52
    5.3.2 测试结果  52-53
    5.3.3 分析讨论  53-57
  5.4 小结  57-58
6 总结与展望  58-60
  6.1 本文的主要工作和研究成果  58
  6.2 需要完善的工作和未来工作展望  58-60
致谢  60-61
参考文献  61-63

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 主题搜索引擎关键技术研究,TP391.3
  6. 教育培训行业互联网营销问题的研究,F49
  7. 搜索引擎侵权行为研究,D923
  8. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  9. 基于Agent元搜索引擎的个性化研究,TP391.3
  10. 论搜索引擎竞价排名的法律规制,D923.43
  11. 搜索引擎悖论解读,G254
  12. 基于搜索引擎网页排序算法研究,TP391.3
  13. 网络下载侵权分析,D923.41
  14. 基于链接结构分析的Web页面排序算法,TP393.092
  15. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  16. 基于领域知识的Deep Web接口发现研究,TP393.09
  17. 基于对等网络的搜索引擎关键技术研究,TP391.3
  18. 基于本体的智能答疑系统研究与实现,TP311.52
  19. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  20. 对搜索引擎扩充语义信息功能方法研究,TP391.3
  21. 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com