学位论文 > 优秀研究生学位论文题录展示

Web搜索与Web缓存的若干关键问题研究

作　者: 王晓宇
导　师: 周傲英
学　校: 复旦大学
专　业: 计算机软件与理论
关键词: Web搜索链接结构分析主题萃取 Peer-to-Peer Web缓存
分类号: TP393.09
类　型: 博士论文
年　份: 2003年
下　载: 405次
引　用: 1次
阅　读: 论文下载

内容摘要

随着信息时代的到来，互联网已经成为人们获取和发布信息的主要平台。从互联网信息获取的角度来看，如何在互联网环境中有效地进行信息搜索就显得尤为重要了。主题萃取和主题发现是互联网信息搜索的两项关键技术。本文第一部分着重研究了利用互联网环境中超文本的链接结构信息改善和提高主题萃取和主题发现技术。在归纳和总结了链接结构分析应用于互联网信息搜索的现状的基础上，本文提出了一种基于相似度的链接结构分析模型，并在此基础上给出了纯粹基于链接结构分析的主题萃取和主题发现的算法。从互联网信息提供的角度，如何避免服务的瓶颈、有效地利用带宽就成为了互联网应用研究需要有效解决的另一个十分重要的问题。Web缓存技术在这一背景下成为互联网建构中一种广泛应用的技术。本文的第二部分构建了一种新型的基于Peer-to-Peer计算模型的分布式Web缓存共享系统。具体地说，本文的主要贡献如下： 1．对链接结构分析及其应用于互联网信息搜索的研究现状作了较为详尽的分析和综述，并给出了未来可能的研究方向。 2．提出了一种基于相似度的链接结构分析模型。该模型从相似度的角度描述了链接结构分析方法应用于主题萃取的过程；借助该分析模型，可以深入地分析主题萃取的过程，为改善和提高主题萃取算法的性能奠定了理论分析的基础。 3．在基于相似度的链接结构分析模型的基础上，提出了新的纯粹基于链接结构分析的主题萃取和主题发现的算法框架。该算法仅使用链接的信息而能改善萃取的质量。同时该算法使得在查询蕴含多个主题的时候，用户能够搜索到那些次流行的主题。 4．利用一种自配置的Peer-to-Peer计算模型，给出了一种W6搜索与WEb缓存的若于关键问题研究摘要 I’eer－toPeer结构下的自配置Web缓存共享系统。该系统的网络的拓扑结构可以依据节点的兴趣而被自调整。同时，系统实现了一种新颖的路由策略，这种策略是基于节点缓存内容相似度的。另外，系统还采用了一种基于相似度的自适应跳坛策略（selIad地table hopping Strategy）。

全文目录

目录  3-6
图检索  6-7
表检索  7-8
摘要  8-10
ABSTRACT  10-12
第一章绪论  12-16
  1.1 基于链接结构分析的Web信息搜索技术  12-13
  1.2 基于Peer-to-Peer计算模型的Web缓存技术  13-16
第一部分基于链接结构分析的WEB搜索  16-57
  第二章链接结构分析及其在WEB信息搜索中的应用  17-35
    2.1 简介  17-20
      2.1.1 链接结构分析与主题萃取  17-18
      2.1.2 链接分析与互联网环境中潜在社区的发现  18-19
      2.1.3 链接分析与互联网成长模式的预测  19-20
      2.1.4 本章的组织结构  20
    2.2 主题萃取的模型与算法  20-26
      2.2.1 PageRank算法  20-21
      2.2.2 HITS算法  21-22
      2.2.3 PageRank算法和HITS算法的进一步探讨与比较  22-23
      2.2.4 ARC和CLEVER系统  23-24
      2.2.5 加权(weighting)和修剪过滤(outlier filtering)方案  24-25
      2.2.6 主题萃取技术与文献引用分析(Citation Analysis)的关联  25-26
    2.3 互联网社区的发现技术  26-29
      2.3.1 基于HITS算法的网上社区发现  27-28
      2.3.2 基于二分有向图(Bipartite Directed Graph)的网上社区发现  28-29
    2.4 互联网结构图的建模研究  29-31
    2.5 链接结构分析在其他方面应用  31-33
    2.6 未来的研究方向  33-35
  第三章基于链接结构分析的主题萃取与主题发现  35-57
    3.1 引言  35-37
      3.1.1 动机  35-36
      3.1.2 本章主要贡献  36
      3.1.3 本章结构  36-37
    3.2 相关工作  37-38
    3.3 预备知识与分析模型  38-40
      3.3.1 HITS算法的矩阵描述  38-39
      3.3.2 链接结构分析模型  39-40
    3.4 问题陈述  40-42
      3.4.1 主题漂移  40-42
      3.4.2 主题遗失  42
    3.5 使用关联规则的广义相似度定义  42-45
    3.6 算法  45-49
      3.6.1 主题萃取中的基本迭代算法  45-46
      3.6.2 控制主题漂移的参数  46-47
      3.6.3 关联规则挖掘算法  47
      3.6.4 主题发现算法  47-48
      3.6.5 主题发现与萃取算法框架  48-49
    3.7 实验分析  49-56
      3.7.1 实验设置  49-50
      3.7.2 总体评估  50-52
      3.7.3 算法中支持率参数的讨论  52-53
      3.7.4 主题发现  53-56
      3.7.5 一些例子  56
    3.8 结论与将来的工作  56-57
第二部分基于PEER-TO-PEER计算模型的WEB缓存  57-103
  第四章自配置的PEER-TO-PEER计算模型  58-79
    4.1 引言  58-59
    4.2 Peer-to-Peer计算模型概述  59-63
      4.2.1 Gnutella模型  59-61
      4.2.2 FreeNet模型  61-62
      4.2.3 Napster模型  62-63
    4.3 BestPeer计算模型  63-66
    4.4 BestPeer的特性  66-71
      4.4.1 移动Agent与P2P技术的结合  66-68
      4.4.2 资源共享  68
      4.4.3 重新配置BestPeer网络  68-70
      4.4.4 位置独立的全局名查找服务器(LIGLO)  70-71
    4.5 评估结果  71-78
      4.5.1 评估方法  71-72
      4.5.2 实验环境  72-74
      4.5.3 不同的拓扑结构  74-75
      4.5.4 请求的响应时间  75-76
      4.5.5 结果的质量  76-77
      4.5.6 BestPeer与Gnutella的比较  77-78
    4.6 总结  78-79
  第五章 BUDDYWEB:自配置的WEB缓存共享系统  79-101
    5.1 引言  79-83
      5.1.1 Web缓存的一般原理  79-81
      5.1.2 Web缓存技术的双面效应  81-82
      5.1.3 Web缓存系统应具备的属性  82-83
      5.1.4 本章组织  83
    5.2 用Peer-to-Peer计算模型建构缓存共享系统  83-85
    5.3 BuddyWeb节点体系结构  85-86
    5.4 基于相似度的动态再配置策略  86-87
    5.5 基于相似度的路由与自适应跳步  87-88
    5.6 系统评估  88-98
      5.6.1 仿真评估模型  88-91
      5.6.2 仿真实验评估  91-98
      5.6.3 讨论  98
    5.7 相关工作  98-99
    5.8 结论  99-101
  第六章总结  101-103
参考文献  103-109
附录1  109-112
附录2  112-113
致谢  113-114

相似论文

一个可扩展的MapReduce原型设计与实现,TP311.52
云计算背景下基于FPGA的文件管理系统与Web缓存的紧耦合研究与分析,TP333
高性能网络社区的设计与实现,TP311.52
基于PXI的通信芯片低成本测试方案,TN407
非结构化P2P拓扑匹配逻辑网络的构造与搜索优化,TP393.02
数据缓存技术在Mashup中的应用研究,TP333
基于WEB访问特性的代理缓存机制的研究,TP393.06
结构化P2P覆盖网设计与搜索机制研究,TP393.02
基于反馈/评价的分布式P2P网络信任模型的研究,TP393.08
Db_Kad：一种基于网络时延信息的Kademlia改进算法,TP393.02
全功能检索系统搜索引擎设计,TP391.3
Peer-to-Peer网络环境下声誉系统的研究,TP393.02
Web对象可缓存性与一致性问题研究,TP393.09
对等网络中的查询机制研究,TP393.02
Web网页的时态文本索引研究,TP393.092
Web缓存替换策略与预取技术的研究,TP333
基于主流评价的P2P网络信任模型的研究,TP393.08
能耗监管平台的缓存替换算法研究与改进,TP333
混合P2P系统的设计和搜索机制研究,TP393.02
基于幂率和小世界特性的P2P覆盖网络设计与分析,TP393.02
高速网络中集群Web缓存系统设计,TP311.52