学位论文 > 优秀研究生学位论文题录展示

面向网络爬虫的海量URL数据管理技术研究

作 者: 丁兴旺
导 师: 徐晓飞;张春慨
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: NC-Tire 缓存机制 流水线模型 海量URL管理
分类号: TP393.02
类 型: 硕士论文
年 份: 2008年
下 载: 121次
引 用: 1次
阅 读: 论文下载
 

内容摘要


海量URL的管理一直是提高网络爬虫性能的一个瓶颈。现在,网络规模越来越大,更新速度也变得越来越快,这些都促使网络爬虫系统来提高其性能。所以如何高效地管理网络爬虫的海量URL,使之能够满足网络爬虫高性能的要求,也就显得越来越重要了。为了能够解决网络爬虫海量URL的高效管理问题,本文从工程的角度,提出这样一个解决方案。它包括一个基于NC-Trie的索引结构、一个面向NC-Trie的缓存机制和一个基于计算机指令流水思想的任务处理体系结构。首先,根据网络爬虫所要管理的URL都是字符串这一特点,本文选取计算机界公认的处理字符串信息最为高效的结构——Tire结构,来作为网络爬虫海量URL管理的索引结构。但是,Trie结构在高效处理字符串的同时,也存在很多缺点。对存储空间的浪费就是Tire结构的最大缺点。因此针对网络爬虫系统海量URL管理的特点,在原有的Trie结构压缩方法的基础上,本文提出一个改进的Trie压缩结构——NC-Trie。NC-Trie比原有的C-Trie具有更高的压缩率,同时也保持了Trie结构高速访问的优点。其次,由于网络爬虫要管理的URL数量巨大,必须借助外存才能更好地实现高效管理。因此,必须对索引结构进行必要的缓存。针对爬虫系统对URL管理的特点,对于海量URL的索引的缓存,本文将采用最近最少用的替换策略,并采用一个转换后的实现算法,来实施缓存的更新。再者,根据网络爬虫对URL访问的特点,本文使用计算机指令流水的基本思想,对网络爬虫对URL的各种操作进行细分,然后重新进行统筹组合,使之具有更高的并发度,以满足现代计算机的检索计算要求。最后,本文将设计和实现一个面向网络爬虫的URL管理系统。这个系统将包含如下模块:预处理模块、NC-Trie缓存管理模块、记录结构解析模块和硬盘缓存访问管理模块等。该系统的实现,为将来相关算法和实验的研究提供了一个基础平台。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 课题研究背景和意义  9-10
    1.1.1 研究背景  9
    1.1.2 研究意义  9-10
  1.2 课题研究现状  10-12
    1.2.1 基于计算机内存的URL 管理方式  10-11
    1.2.2 基于已有的数据库系统  11
    1.2.3 基于文件系统  11-12
  1.3 课题研究内容  12-13
    1.3.1 快速索引技术  12-13
    1.3.2 海量URL 管理的缓存策略  13
    1.3.3 海量URL 管理任务流水模型  13
  1.4 本文的结构安排  13-15
第2章 基于NC-Trie 的海量URL 索引技术  15-37
  2.1 常用的索引技术介绍及分析  15-17
    2.1.1 HASH 索引技术  15-16
    2.1.2 树结构索引技术  16-17
    2.1.3 Hybrid-TH 索引技术  17
  2.2 Trie 索引技术  17-23
    2.2.1 Trie 概述  17-19
    2.2.2 Trie 结点的表示  19
    2.2.3 Trie 压缩技术  19-23
  2.3 海量URL 管理的索引技术-NC-Trie  23-32
    2.3.1 NC-Trie 的定义  23-24
    2.3.2 NC-Trie 的结点结构  24-25
    2.3.3 NC-Trie 的操作算法  25-29
    2.3.4 NC-Trie 的效率分析  29-31
    2.3.5 NC-Trie 的并发控制  31-32
  2.4 NC-Trie 的辅助压缩  32-33
    2.4.1 压缩属性值域的元素个数  32
    2.4.2 压缩属性序列的长度  32-33
    2.4.3 MD5 预处理  33
  2.5 NC-Trie 中N 的确定  33-37
    2.5.1 NC-Trie 外存结点的表示  33-35
    2.5.2 确定NC-Trie 中N 的实验  35
    2.5.3 实验结果及其分析  35-37
第3章 海量URL 管理的缓存技术  37-49
  3.1 NC-Trie 索引的缓存技术  37-42
    3.1.1 NC-Trie 索引的缓存组织结构  37
    3.1.2 NC-Tire 索引的缓存替换策略  37-38
    3.1.3 NC-Tire 索引的缓存替换算法  38-40
    3.1.4 NC-Trie 缓存的访问控制  40-42
  3.2 NC-Trie 结点更新缓存  42-44
    3.2.1 NC-Trie 更新结点的缓存组织  42
    3.2.2 NC-Trie 更新结点的数据一致性  42-43
    3.2.3 缓存内容更新优化  43-44
  3.3 记录的缓存技术  44
    3.3.1 记录的结构  44
    3.3.2 记录的缓冲器设计  44
    3.3.3 记录的缓存更新优化  44
  3.4 记录缓存优化和NC-Trie 结点缓存优化试  44-46
    3.4.1 实验描述  44-45
    3.4.2 实验结果和分析  45-46
  3.5 NC-Trie 索引缓存试验  46-49
    3.5.1 实验描述  46-47
    3.5.2 实验结果及分析  47-49
第4章 基于指令流水思想的海量URL 管理优化  49-56
  4.1 引入指令流水模型原因  49
    4.1.1 提高程序的并发度  49
    4.1.2 提高计算机处理器执行指令效率  49
  4.2 海量URL 的指令管理  49-50
  4.3 海量URL 的查询指令流水模型  50-52
    4.3.1 查询操作执行过程  50
    4.3.2 查询任务的分割  50
    4.3.3 查询任务处理器设计  50-52
  4.4 海量URL 的更新指令流水模型  52-54
    4.4.1 更新操作执行过程  52
    4.4.2 更新任务分割  52
    4.4.3 更新任务处理器的设计  52-54
  4.5 优化后的效果及其分析  54-56
第5章 基于硬盘NC-Trie 索引的海量URL 管理系统  56-61
  5.1 系统设计与实现  56-57
    5.1.1 开发平台及工具  56
    5.1.2 实现意义及目标  56
    5.1.3 系统总体设计  56-57
  5.2 系统详细设计  57
  5.3 系统的模块设计  57-60
    5.3.1 任务预处理器  57-58
    5.3.2 NC-Trie 索引管理模块  58
    5.3.3 记录管理模块  58-59
    5.3.4 任务流水线  59-60
    5.3.5 外存优化访问管理器  60
    5.3.6 流水线管理器  60
  5.4 本章小结  60-61
结论  61-62
参考文献  62-66
致谢  66

相似论文

  1. BlueOcean海量存储系统客户端的设计与实现,TP333
  2. 高性能iSCSI系统的设计与实现,TP333
  3. 基于V850/MS1硬件系统模拟器的研究与实现,TP368.12
  4. 目录服务器缓存技术研究,TP333
  5. 分层超级结点MP2P资源定位与分发研究,TP393.02
  6. 无线P2P网络中资源搜索技术的研究,TN929.5
  7. P2P流媒体缓存管理机制研究,TN919.8
  8. 基于P2P-CDN的流媒体缓存机制研究与实现,TN919.8
  9. 基于流水线模型的Ad Hoc网络信息传递技术研究,TN929.5
  10. P2P流媒体系统缓存及调度策略研究,TP393.02
  11. 基于Chord的服务标识解析系统的仿真与性能分析,TP393.02
  12. 基于JAVA的企业短信平台及应用产品的设计与实现,TP311.52
  13. P2P视频点播客户端缓存机制研究与实现,TN948.64
  14. 基于RFID与WebGIS技术的仓储管理系统研究与实现,TP311.52
  15. 搜索引擎检索技术研究,TP391.3
  16. 移动Ad Hoc网络中ZRP路由协议缓存机制优化策略的研究,TN929.5
  17. 语音增值业务平台中关键模块及缓存机制的设计与实现,TP311.52
  18. 数据复制模块在ATC中的设计和实现,TP311.52
  19. 网络存储服务器缓存替换策略研究,TP393.05
  20. 扩展组织PKI网络访问控制方法研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络结构与设计
© 2012 www.xueweilunwen.com