学位论文 > 优秀研究生学位论文题录展示

支持JavaScript解析的网页采集系统设计与实现

作　者: 白红霞
导　师: 常桂然
学　校: 东北大学
专　业: 计算机应用技术
关键词: 网页采集系统用户视觉信息 JavaScript解析页面分析 IP FIFO队列
分类号: TP393.092
类　型: 硕士论文
年　份: 2008年
下　载: 145次
引　用: 1次
阅　读: 论文下载

内容摘要

随着搜索引擎的广泛应用,网页采集技术得到了长足发展。网页采集是搜索引擎工作流程的第一站,采集的页面质量将直接影响到搜索引擎提供查询服务的优劣。最理想的情形是采集与用户视觉信息一致(Coherent with Users’Vision Information, CUVI)的页面,这一概念一直是搜索引擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为宗旨设计并实现了一个网页采集系统。抓取CUVI页面首先需要进行网页重定向的处理操作,这是页面内JavaScript程序的主要功能之一。本文采集系统通过将JavaScript解析引入采集系统设计中,在很大程度上解决采集CUVI页面的问题。本文主要内容分JavaScript解析和采集系统设计与实现两部分展开。JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据进行调研分析,得到了JS程序在HTML文档中的功能分布。然后,根据采集系统对JavaScript解析的需求设计并实现了简易JS解析器——JSParser。最后,通过实验验证JSParser无论在性能上还是在功能上都能满足本文采集系统的需求。本文的采集系统由采集器和控制器两个模块组成。采集器在设计上,创新性地引入页面分析功能,并结合使用JSParser,达到了采集CUVI页面的初衷；在实现上,采用EPOLL技术解决了采集器对高并发度的要求。控制器维护一个站点IP FIFO (Fist In FistOut)队列,较好地解决了采集系统对IP和站点的抓取压力控制,使得采集器和互联网能够良好的协同工作。通过对系统进行多方面测试,得到引入JSParser对系统性能的影响不明显,并且本系统在IP富足的情况下,运行良好。

全文目录

摘要  5-6
ABSTRACT  6-11
第1章绪论  11-15
  1.1 研究背景  11-12
  1.2 支持JavaScript解析的网页采集技术发展现状  12-13
  1.3 本文主要工作  13
  1.4 本文组织结构  13-15
第2章相关技术介绍  15-33
  2.1 JavaScript简介  15-17
    2.1.1 JavaScript语言概况  15
    2.1.2 JavaScript语言组成  15-16
    2.1.3 JavaScript在网页中的用法  16-17
  2.2 解析JavaScript的方法  17-18
  2.3 JS引擎介绍  18-21
    2.3.1 SpiderMonkey简介  18-20
    2.3.2 SpiderMonkey的使用  20-21
  2.4 搜索引擎简介  21-22
  2.5 搜索引擎组成部分  22-25
    2.5.1 爬虫器  22-23
    2.5.2 索引器  23-24
    2.5.3 索引库  24
    2.5.4 检索引擎  24-25
  2.6 搜索引擎国内外研究现状  25-26
  2.7 搜索引擎主要指标  26
  2.8 搜索引擎搜索策略  26-31
    2.8.1 无启发式搜索策略  27-29
    2.8.2 启发式搜索策略  29-30
    2.8.3 对广度优先搜索的优化  30-31
  2.9 本章小结  31-33
第3章 JavaScript解析器的设计与实现  33-45
  3.1 引言  33
  3.2 处理JavaScript的必要性  33-35
  3.3 网页抓取对JavaScript解析的需求  35-36
  3.4 JSParser设计  36-43
    3.4.1 总体结构设计  36-37
    3.4.2 初始化JSParser  37-38
    3.4.3 总控制程序  38
    3.4.4 读取语句控制  38-39
    3.4.5 解释执行控制  39
    3.4.6 解释执行  39-42
    3.4.7 表达式计算  42-43
  3.5 JSParser性能测试  43
  3.6 本章小结  43-45
第4章采集系统设计与实现  45-69
  4.1 引言  45
  4.2 主要技术概要  45-48
    4.2.1 HTTP协议  45-46
    4.2.2 EPOLL技术  46-48
  4.3 系统总体设计  48-49
  4.4 模块工作模式  49
  4.5 采集模块详细设计  49-56
    4.5.1 模块结构图及说明  49-51
    4.5.2 算法描述  51-54
    4.5.3 需要考虑的问题及解决策略  54-56
  4.6 控制器设计  56-64
    4.6.1 模块结构图及说明  57-59
    4.6.2 URL接收  59-61
    4.6.3 URL选取  61-62
    4.6.4 URL分发  62-63
    4.6.5 页面收集  63-64
    4.6.6 URL监控  64
  4.7 系统测试  64-67
    4.7.1 JSParser对采集系统性能的影响  64-65
    4.7.2 采集系统性能测试  65-67
  4.8 本章小结  67-69
第5章总结与展望  69-71
  5.1 工作总结  69
  5.2 下一步的工作  69-71
参考文献  71-75
致谢  75

支持JavaScript解析的网页采集系统设计与实现

内容摘要

全文目录

相似论文