学位论文 > 优秀研究生学位论文题录展示

分布式银行网站网页信息获取系统实现

作 者: 赵靖华
导 师: 张宏莉;丛柏
学 校: 哈尔滨工业大学
专 业: 软件工程
关键词: 网络爬虫 广域网 分布式系统
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 27次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近几年来,互联网迅猛发展,网络中流通的Web信息量巨大,其中各国银行网站发布的信息更是受到金融界的广泛关注。对互联网上各国银行网站发布的汇率、利率等财政信息进行长期的统计,也就成为了解其他国家财政、经济政策的一种主要手段。针对当前的实际需求,对网页信息获取及计算技术的研究成为当前和未来一段时期内学术研究的重点。做为我国央行的人民银行,在此方面投入了大量的科研资金,各个地方人民银行也积极地进行这方面的研究工作。针对这一情况,本文展开了基于广域网的分布式银行网站网页信息获取系统的研究与实现。网页信息获取系统(网络爬虫)研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个基于广域网的分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机做爬行节点,在广域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关键技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫,并就该分布式网络爬虫进行了仔细的剖析。特别是对分布式系统的任务分配,采用了网络性能指标指导预测效果法。最后在该网络爬虫上作了一些测试,包括了单机爬行测试和该网络爬虫的一个应用,即银行网站网页信息的抓取测试。以及对多种分布式系统任务分配的方法指导下实际运行的效果进行了对比,得出网络性能指标指导预测效果法为最佳的任务调度方法。

全文目录


相似论文

  1. 分布式系统的故障注入方法研究,TP338.8
  2. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  3. 一种可视化的分布式数据集成模型的研究与实现,TP311.52
  4. 构建分布式系统的关键技术研究与实现,TP338.8
  5. 广域网数据压缩算法的研究与实现,TP391.41
  6. 数据存储在广域网加速系统中的研究与应用,TP333
  7. 基于GPRS的无线信息采集监控系统的研究与设计,TN929.5
  8. 基于广域网的容灾存储系统故障检测技术的研究与设计,TP333
  9. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  10. 一个分布式作战指挥仿真系统的设计与实现,TP311.52
  11. 基于Web Service在线考试管理系统的研究与实现,TP311.52
  12. 基于TR-069配置管理的网关的研究与设计,TP393.05
  13. 分布式动态交通信息挖掘及导航,TP311.13
  14. 分布式图像管理系统的设计与实现,TP311.52
  15. 分布式麦克风阵列跟踪算法研究,TN912.3
  16. 分布式系统性能测试与分析方法研究,TP311.52
  17. 网络舆情分析关键技术研究与实现,TP393.09
  18. P2P视频点播系统优化的研究与实现,TP393.09
  19. 分布式多视角目标跟踪的统计推理方法及实现,TP391.41
  20. 基于B/S模式的制造企业物流管理系统设计与实现,TP311.52
  21. 无线WAP办公门户系统设计与实现,TP317.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com