学位论文 > 优秀研究生学位论文题录展示

基于Web信息检索的链接分析算法研究

作 者: 邓凯英
导 师: 孙铁利
学 校: 东北师范大学
专 业: 计算机应用技术
关键词: Web信息检索 PageRank 超链接分析 主特征向量
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 188次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径,由于Web上的文本信息日益增长,如何有效地检索用户所需的信息成为一个非常重要的研究课题。万维网WWW(World Wide Web)是一个巨大的、分布全球的信息服务中心,正在以飞快的速度扩展,这就对传统信息检索技术提出了新的挑战。在传统的信息检索技术没有突破性进展的现状下,从Web数据本身的特点出发,充分挖掘Web上最充分的超链接资源,通过超链接进行搜索,建立有效的Web信息检索模型,从而找到我们需要的信息。因此,链接结构分析在万维网的很多研究领域起着越来越重要的作用,本文将介绍链接结构在Web信息检索中的应用。近年来,许多研究者发现WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用这些资源,可以极大地提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位,而收敛算法的好坏尤其重要,它直接决定了得到最终PageRank向量的时空开销,一个好的收敛算法可以使系统在较小的时空开销下得到最终向量值,从而使整个搜索的效率得到提高。在当前情况下,PageRank要处理的矩阵是巨大的,传统的矩阵理论不能直接应用于PageRank的计算。因此迫切需要利用PageRank转移矩阵特征值的特殊性,找到一个比较高效的计算方法来提高迭代法的收敛速度,以便提高PageRank的计算效率。本文首先分析由链接生成的万维网网络结构在Web信息检索中的应用,然后介绍PageRank算法的模型建立与主要性质。随后,在现有PageRank计算方法的研究基础上,作者推导加速PageRank计算的一般性公式,设计产生满足Web链接结构特征的高维随机矩阵的算法。本文提出General Extrapolation和Acceleration Extrapolation两种有效的加速收敛方法。最后,我们分别在高维随机矩阵数据和四个数据集上进行数值实验,实验结果证实加速PageRank计算的理论分析和算法的有效性。从实验结果可以看出,计算速度得到明显加快。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-13
  1.1 研究背景  10
  1.2 研究现状和主要内容  10-11
  1.3 本文组织结构  11-13
第二章 超链分析与WEB 信息检索  13-18
  2.1 超链分析概述  13-14
    2.1.1 超链接分析的提出  13
    2.1.2 常用超链分析方法  13-14
  2.2 WEB 信息检索技术  14-16
    2.2.1 Web 信息的特征  14-15
    2.2.2 主要信息检索模型  15-16
    2.2.3 Google 搜索引擎  16
  2.3 超链接分析的主要应用领域  16-17
  2.4 超链分析在WEB 信息检索中的应用  17
  2.5 本章小结  17-18
第三章 PAGERANK 算法基础  18-27
  3.1 PAGERANK 算法原理  18-21
  3.2 PAGERANK 算法模型  21-25
    3.2.1 马尔可夫链模型  21-23
    3.2.2 声望模型  23-24
    3.2.3 PageRank 随机冲浪模型  24-25
  3.3 PAGERANK 算法与HITS 算法比较  25-26
  3.4 本章小结  26-27
第四章 加速PAGERANK 收敛算法  27-44
  4.1 PAGERANK 向量计算现状  27-31
    4.1.1 幂法  28-30
    4.1.2 Aitken Extrapolation 算法  30-31
    4.1.3 Quadratic Extrapolation 算法  31
  4.2 GENERAL EXTRAPOLATION 法  31-37
    4.2.1 General Extrapolation 公式  31-34
    4.2.2 General Extrapolation 算法  34-35
    4.2.3 生成高维随机矩阵  35-36
    4.2.4 实验结果与分析  36-37
  4.3 ACCELERATION EXTRAPOLATION 算法  37-43
    4.3.1 Acceleration Extrapolation 原理  37-39
    4.3.2 Acceleration Extrapolation 实现  39-40
    4.3.3 实验结果与分析  40-43
  4.4 本章小结  43-44
第五章 总结与展望  44-46
  5.1 总结  44-45
  5.2 展望  45-46
参考文献  46-50
致谢  50-51
在学期间公开发表论文情况  51

相似论文

  1. 主题搜索引擎关键技术研究,TP391.3
  2. 基于搜索引擎网页排序算法研究,TP391.3
  3. 基于链接结构分析的Web页面排序算法,TP393.092
  4. 搜索引擎主题相关性研究,TP391.3
  5. 基于点击数据分析的个性化搜索引擎研究,TP391.3
  6. 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
  7. 基于查询扩展的垂直搜索研究,TP391.3
  8. 一种新的Web结构挖掘算法的研究,TP311.13
  9. 基于链接分析的PageRank排序算法的改进研究,TP391.3
  10. 基于云计算的Web结构挖掘算法研究,TP311.13
  11. 面向主题的博客资源挖掘关键技术研究,TP393.09
  12. 基于搜索算法的Web安全,TP393.08
  13. 语义Web技术在信息检索系统中的应用研究,G354
  14. DistanceRank与HITS混合的网页排序算法研究,TP393.092
  15. 基于手机图片搜索引擎的设计与实现,TP391.3
  16. 基于谷歌矩阵第二特征值重数的两类外推加速算法,O151.21
  17. 基于Web信息挖掘的企业竞争情报系统的研究,F272
  18. 搜索引擎中的Pagerank排序算法研究分析,O223
  19. PageRank算法在非网页检索问题中的应用,TP391.3
  20. 恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现,TP391.3
  21. 高校毕业生就业推荐系统的设计与开发,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com