学位论文 > 优秀研究生学位论文题录展示
基于Web信息检索的链接分析算法研究
作 者: 邓凯英
导 师: 孙铁利
学 校: 东北师范大学
专 业: 计算机应用技术
关键词: Web信息检索 PageRank 超链接分析 主特征向量
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 188次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径,由于Web上的文本信息日益增长,如何有效地检索用户所需的信息成为一个非常重要的研究课题。万维网WWW(World Wide Web)是一个巨大的、分布全球的信息服务中心,正在以飞快的速度扩展,这就对传统信息检索技术提出了新的挑战。在传统的信息检索技术没有突破性进展的现状下,从Web数据本身的特点出发,充分挖掘Web上最充分的超链接资源,通过超链接进行搜索,建立有效的Web信息检索模型,从而找到我们需要的信息。因此,链接结构分析在万维网的很多研究领域起着越来越重要的作用,本文将介绍链接结构在Web信息检索中的应用。近年来,许多研究者发现WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用这些资源,可以极大地提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位,而收敛算法的好坏尤其重要,它直接决定了得到最终PageRank向量的时空开销,一个好的收敛算法可以使系统在较小的时空开销下得到最终向量值,从而使整个搜索的效率得到提高。在当前情况下,PageRank要处理的矩阵是巨大的,传统的矩阵理论不能直接应用于PageRank的计算。因此迫切需要利用PageRank转移矩阵特征值的特殊性,找到一个比较高效的计算方法来提高迭代法的收敛速度,以便提高PageRank的计算效率。本文首先分析由链接生成的万维网网络结构在Web信息检索中的应用,然后介绍PageRank算法的模型建立与主要性质。随后,在现有PageRank计算方法的研究基础上,作者推导加速PageRank计算的一般性公式,设计产生满足Web链接结构特征的高维随机矩阵的算法。本文提出General Extrapolation和Acceleration Extrapolation两种有效的加速收敛方法。最后,我们分别在高维随机矩阵数据和四个数据集上进行数值实验,实验结果证实加速PageRank计算的理论分析和算法的有效性。从实验结果可以看出,计算速度得到明显加快。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 绪论 10-13 1.1 研究背景 10 1.2 研究现状和主要内容 10-11 1.3 本文组织结构 11-13 第二章 超链分析与WEB 信息检索 13-18 2.1 超链分析概述 13-14 2.1.1 超链接分析的提出 13 2.1.2 常用超链分析方法 13-14 2.2 WEB 信息检索技术 14-16 2.2.1 Web 信息的特征 14-15 2.2.2 主要信息检索模型 15-16 2.2.3 Google 搜索引擎 16 2.3 超链接分析的主要应用领域 16-17 2.4 超链分析在WEB 信息检索中的应用 17 2.5 本章小结 17-18 第三章 PAGERANK 算法基础 18-27 3.1 PAGERANK 算法原理 18-21 3.2 PAGERANK 算法模型 21-25 3.2.1 马尔可夫链模型 21-23 3.2.2 声望模型 23-24 3.2.3 PageRank 随机冲浪模型 24-25 3.3 PAGERANK 算法与HITS 算法比较 25-26 3.4 本章小结 26-27 第四章 加速PAGERANK 收敛算法 27-44 4.1 PAGERANK 向量计算现状 27-31 4.1.1 幂法 28-30 4.1.2 Aitken Extrapolation 算法 30-31 4.1.3 Quadratic Extrapolation 算法 31 4.2 GENERAL EXTRAPOLATION 法 31-37 4.2.1 General Extrapolation 公式 31-34 4.2.2 General Extrapolation 算法 34-35 4.2.3 生成高维随机矩阵 35-36 4.2.4 实验结果与分析 36-37 4.3 ACCELERATION EXTRAPOLATION 算法 37-43 4.3.1 Acceleration Extrapolation 原理 37-39 4.3.2 Acceleration Extrapolation 实现 39-40 4.3.3 实验结果与分析 40-43 4.4 本章小结 43-44 第五章 总结与展望 44-46 5.1 总结 44-45 5.2 展望 45-46 参考文献 46-50 致谢 50-51 在学期间公开发表论文情况 51
|
相似论文
- 主题搜索引擎关键技术研究,TP391.3
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于链接结构分析的Web页面排序算法,TP393.092
- 搜索引擎主题相关性研究,TP391.3
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 基于查询扩展的垂直搜索研究,TP391.3
- 一种新的Web结构挖掘算法的研究,TP311.13
- 基于链接分析的PageRank排序算法的改进研究,TP391.3
- 基于云计算的Web结构挖掘算法研究,TP311.13
- 面向主题的博客资源挖掘关键技术研究,TP393.09
- 基于搜索算法的Web安全,TP393.08
- 语义Web技术在信息检索系统中的应用研究,G354
- DistanceRank与HITS混合的网页排序算法研究,TP393.092
- 基于手机图片搜索引擎的设计与实现,TP391.3
- 基于谷歌矩阵第二特征值重数的两类外推加速算法,O151.21
- 基于Web信息挖掘的企业竞争情报系统的研究,F272
- 搜索引擎中的Pagerank排序算法研究分析,O223
- PageRank算法在非网页检索问题中的应用,TP391.3
- 恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现,TP391.3
- 高校毕业生就业推荐系统的设计与开发,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|