学位论文 > 优秀研究生学位论文题录展示

面向海量URL数据存取的快速文件系统

作 者: 王先平
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 快速文件系统 URL管理 B+树 逻辑存取模型 物理存取模型
分类号: TP333
类 型: 硕士论文
年 份: 2010年
下 载: 48次
引 用: 0次
阅 读: 论文下载
 

内容摘要


海量URL快速存储和访问是高性能web爬虫的基础,由于web爬虫需要根据一定的策略将URL按照一定的顺序进行抓取,因此,为了快速查找,URL往往被保存在关系数据库中。但是当数据库中数据的数量规模很大时,关系数据库往往不能满足爬虫对海量URL数据存取的需求。这个也是提高web爬虫性能的瓶颈所在。本文的研究是为了解决海量URL存取的性能瓶颈问题。通过对聚焦爬虫在实际环境中爬行的过程进行深入的剖析,明确了爬虫对海量URL数据存取的技术需求。针对这些技术需求我们进行了深入的研究,并在研究的成果上提出了面向海量URL存取的快速文件系统。根据功能文件系统分为逻辑存取模型和物理存取模型,并最终能够取得满足爬虫需求的效果。本文的主要贡献有:1)以B+树作为快速文件系统逻辑存取模型的索引,并且以域名和URL的哈希值联合作为B+树的索引关键字,提高了URL记录查询的效率。并且通过叶子节点平移的延迟分裂方法优化了B+树的空间利用效率。2)在物理模型中,通过分析web爬虫对URL的需求,在URL访问的局部性原理,硬盘的顺序读写,web爬虫抓取网页的可重现性和延迟写技术的理论基础之上,对缓存技术做了适当的优化,大大的减少了I/O的访问,提高了效率。3)本文设了一个面向海量URL的快速文件系统,并实现了快速文件系统的原型,该系统实现了上述讨论的所有功能,为以后URL的存储的研究打下了坚实的基础。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-16
  1.1 课题来源及研究的目的和意义  10-11
    1.1.1 课题来源  10
    1.1.2 研究意义  10-11
  1.2 国内外相关技术发展现状  11-14
    1.2.1 URL 管理的技术现状  11-13
    1.2.2 文件系统的技术现状  13-14
  1.3 本文的主要内容  14-15
  1.4 本文的结构安排  15-16
第2章 Web 爬虫中海量URL 数据的存取操作分析  16-23
  2.1 引言  16
  2.2 web 爬虫对海量URL 的存取需求  16-19
    2.2.1 web 爬虫的相关术语诠释  16-17
    2.2.2 web 爬虫的流程  17-18
    2.2.3 web 爬虫对URL 的存取需求  18-19
  2.3 基于关系数据库的海量URL 存取方法分析  19-20
  2.4 海量URL 操作的性能瓶颈  20-22
    2.4.1 内存数据库、嵌入式数据库、关系数据库的对比  20-21
    2.4.2 快速文件系统模型  21-22
  2.5 本章小结  22-23
第3章 快速文件系统的逻辑存取模型  23-41
  3.1 引言  23
  3.2 海量URL 的去重技术  23-24
    3.2.1 基于哈希的去重技术  23
    3.2.2 哈希函数的选择实验  23-24
  3.3 海量URL 的索引技术  24-28
    3.3.1 哈希索引技术  25-26
    3.3.2 Trie 索引  26
    3.3.3 B 树索引  26-28
  3.4 基于优化B+树的快速文件系统逻辑存取模型  28-38
    3.4.1 URL 及其附属信息的存储结构  28
    3.4.2 逻辑存取模型  28-29
    3.4.3 优化B+树索引  29-35
    3.4.4 优化B+树的实验分析  35-38
  3.5 并发存取模型设计  38-40
    3.5.1 锁机制  38-39
    3.5.2 共享缓冲区并发模型  39-40
  3.6 本章小结  40-41
第4章 快速文件系统的物理存取模型及I/O 优化  41-52
  4.1 引言  41
  4.2 海量URL 的物理存取模型  41-44
    4.2.1 URL 的物理存取结构  41-42
    4.2.2 快速文件系统的物理存取模型  42-43
    4.2.3 外存地址的映射关系  43-44
  4.3 海量URL 的缓存技术  44-47
    4.3.1 快速文件系统的缓存策略  44-46
    4.3.2 缓存命中率实验分析  46-47
  4.4 I/O 优化  47-51
    4.4.1 I/O 优化原理  47-49
    4.4.2 I/O 优化实验分析  49-51
  4.5 本章小结  51-52
第5章 面向Web 爬虫的海量URL 快速文件系统设计与实现  52-59
  5.1 引言  52
  5.2 快速文件系统的设计目标  52
  5.3 系统的总体设计  52-54
  5.4 系统的详细设计  54-57
    5.4.1 去重模块  54
    5.4.2 索引管理模块  54-55
    5.4.3 记录管理模块  55-56
    5.4.4 缓存管理模块  56-57
    5.4.5 页面调度模块  57
  5.5 实验结果和对比  57-58
  5.6 本章小结  58-59
结论  59-60
参考文献  60-64
致谢  64

相似论文

  1. 卫星光通信粗瞄控制系统的设计及故障诊断,V443.1
  2. 病险水库溃坝概率分析方法研究,TV697
  3. 支持XML数据查询的F&B索引结构的研究,TP311.13
  4. 多邮件自动文摘的关键技术研究,TP391.1
  5. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  6. 基于支持向量机的故障诊断方法研究,TP18
  7. 紫金山树木菌根多样性的调查分析,S718.81
  8. 新疆油田地面工程造价指标和管理信息系统的研究与应用,F284
  9. 鸡传染性支气管炎病毒河南地方株分离鉴定及HN104株与HN091株全基因组序列测定,S852.65
  10. 树鼩和猕猴精子冷冻保存工艺的创建和优化的研究,S865.1
  11. 果胶高效降解菌株的紫外诱变选育、生物特性及其生物脱胶应用研究,TS713
  12. 梨树枝梢处理及高接换种技术研究,S661.2
  13. 古树名木综合价值评价研究,S788
  14. 树突状细胞在多柔比星诱导的大鼠肾纤维化模型中的作用,R692.5
  15. ATN中敏感信息保护技术研究,TP309
  16. 铜污染区的外生菌根菌群体多样性特征调查及外生菌根菌对尾砂矿区树木幼苗定植和生长的影响,X173
  17. P-选择蛋白对人单核细胞源性树突状细胞分化和免疫功能成熟的影响,R543.5
  18. 危险品道路运输的安全问题及对策研究,U492.81
  19. 喹啉环取代喜树碱的定量构效关系研究,R914
  20. 高校人力资源管理外包研究,G647
  21. 海人酸致痫大鼠神经元树突棘的可塑性变化,R742.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com