学位论文 > 优秀研究生学位论文题录展示

基于集群计算的网络信息采集系统的设计与实现

作 者: 王文胜
导 师: 徐志明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网络信息采集 双语网络信息更新 Hadoop HDFS MapReduce
分类号: TP274.2
类 型: 硕士论文
年 份: 2012年
下 载: 32次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Web信息技术的不断发展,网络信息采集技术也日趋完善,作为许多Web信息服务的基础及重要组成部分,它被广泛的应用于搜索引擎、机器翻译等自然语言处理的各个方面。面对互联网上各种信息资源,有针对性的网络信息采集系统不断推陈出新,为获取网络信息提供极大的便利,同时,海量增长的网络信息也给信息的获取带来了新的挑战。对于统计机器翻译、机器辅助翻译以及翻译知识获取等研究来说,网络信息采集的任务是从海量的Web网页中发现大规模、含有多语言平行网页文本的网站中搜集平行网页文本,建设大规模多语言平行语料库,这也正是本文的研究目标。本文深入研究了一个针对大规模数据处理的分布式计算集群框架—Hadoop,并在此基础上设计并实现了一个可配置、可扩展的面向Web的分布式网络信息采集系统,此外,本文还设计并实现了一个增量式的网络信息更新采集系统,用来对双语平行网页进行增量式更新采集。本文首先介绍了网络信息采集系统的研究背景、当期的发展现状,并调研了当前非常热门的分布式计算集群框架—Hadoop,深入的理解其子系统Hadoop分布式文件系统(HDFS)及其重要的并行计算模型MapReduce的设计原理、体系结构等,分析了网络信息采集中URLs去重、任务调度、网页更新的识别等的关键技术,在此基础上设计并实现了面向Web的分布式网络信息采集系统和面向双语网站的增量式更新采集系统。最后通过对实验结果的分析,验证了本文提出的面向Web的分布式网络信息采集系统的高可配置、稳定、高可扩展等的特性,能够完成采集大规模、多语言网页的任务,对于面向双语网站的增量式更新采集系统,能够高效的完成对双语网站的增量式更新采集网页的任务,最终实现了课题的研究目标。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题研究背景及意义  8-9
  1.2 网络信息采集研究现状  9-10
  1.3 课题研究内容  10-12
    1.3.1 Web 网页信息采集研究  11-12
    1.3.2 双语网站信息采集研究  12
  1.4 内容组织结构  12-14
第2章 网络信息采集的相关技术  14-27
  2.1 分布式集群 HADOOP 相关知识  14-18
    2.1.1 HDFS 简介  15-16
    2.1.2 MapReduce 计算模型简介  16-18
  2.2 URLS 调度策略  18-20
  2.3 URLS 去重方案  20-21
  2.4 网页更新概率计算  21-24
  2.5 网页更新识别方式  24
  2.6 DNS 分布式缓存  24-25
  2.7 其他相关问题  25-26
  2.8 本章小结  26-27
第3章 网络信息采集系统  27-54
  3.1 网络信息采集系统的 MAPREDUCE 处理流程  27-28
  3.2 WEB 网页信息采集系统的设计与实现  28-38
    3.2.1 系统设计目标  28
    3.2.2 系统总体结构  28-30
    3.2.3 格式化功能模块设计与实现  30-32
    3.2.4 下载功能模块设计与实现  32-35
    3.2.5 URLs 去重功能模块设计与实现  35-37
    3.2.6 网页去重功能模块设计与实现  37-38
  3.3 面向双语网站的网页信息采集系统的设计与实现  38-53
    3.3.1 系统设计目标  38-39
    3.3.2 系统总体结构  39-41
    3.3.3 格式化功能模块设计与实现  41-44
    3.3.4 双语站内下载模块设计与实现  44-46
    3.3.5 URLs 去重功能模块设计与实现  46-49
    3.3.6 网页更新下载功能模块设计与实现  49-51
    3.3.7 网页去重功能模块设计与实现  51-53
  3.4 本章小结  53-54
第4章 网络信息采集系统评测  54-59
  4.1 系统评测  54-58
    4.1.1 网络信息采集系统运行环境  54
    4.1.2 Web 网页信息采集系统评测  54-56
    4.1.3 双语网站信息更新采集系统评测  56-58
  4.2 本章小结  58-59
结论  59-61
参考文献  61-65
致谢  65

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  3. 基于Hadoop的移动学习系统设计与实现,G434
  4. 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
  5. 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
  6. 基于云计算的软件资源服务平台研究,TP311.52
  7. 海量数据的快速查询算法研究,TP311.13
  8. 高速网络环境下的入侵检测系统的研究,TP393.08
  9. 云计算平台上的增量学习研究,TP311.13
  10. 云队列:一个基于Hadoop的大规模消息基础平台,TP311.52
  11. 基于Hadoop的文本分类研究,TP391.1
  12. 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
  13. 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
  14. 基于Hadoop的视频转码系统设计与实现,TN919.81
  15. 数据中心Hadoop部署与追踪系统研究,TP308
  16. 云环境下MapReduce容错技术的研究,TP302.8
  17. 基于云存储的手机数据备份系统,TP309.3
  18. 一个可扩展的MapReduce原型设计与实现,TP311.52
  19. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  20. 基于Hadoop/Hive的海量web日志处理系统的设计与实现,TP393.09
  21. 基于段落指纹的大规模近似网页检测算法研究,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统 > 数据收集和处理系统
© 2012 www.xueweilunwen.com