学位论文 > 优秀研究生学位论文题录展示

支持JavaScript解析的网页采集系统设计与实现

作 者: 白红霞
导 师: 常桂然
学 校: 东北大学
专 业: 计算机应用技术
关键词: 网页采集系统 用户视觉信息 JavaScript解析 页面分析 IP FIFO队列
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 145次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着搜索引擎的广泛应用,网页采集技术得到了长足发展。网页采集是搜索引擎工作流程的第一站,采集的页面质量将直接影响到搜索引擎提供查询服务的优劣。最理想的情形是采集与用户视觉信息一致(Coherent with Users’Vision Information, CUVI)的页面,这一概念一直是搜索引擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为宗旨设计并实现了一个网页采集系统。抓取CUVI页面首先需要进行网页重定向的处理操作,这是页面内JavaScript程序的主要功能之一。本文采集系统通过将JavaScript解析引入采集系统设计中,在很大程度上解决采集CUVI页面的问题。本文主要内容分JavaScript解析和采集系统设计与实现两部分展开。JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据进行调研分析,得到了JS程序在HTML文档中的功能分布。然后,根据采集系统对JavaScript解析的需求设计并实现了简易JS解析器——JSParser。最后,通过实验验证JSParser无论在性能上还是在功能上都能满足本文采集系统的需求。本文的采集系统由采集器和控制器两个模块组成。采集器在设计上,创新性地引入页面分析功能,并结合使用JSParser,达到了采集CUVI页面的初衷;在实现上,采用EPOLL技术解决了采集器对高并发度的要求。控制器维护一个站点IP FIFO (Fist In FistOut)队列,较好地解决了采集系统对IP和站点的抓取压力控制,使得采集器和互联网能够良好的协同工作。通过对系统进行多方面测试,得到引入JSParser对系统性能的影响不明显,并且本系统在IP富足的情况下,运行良好。

全文目录


摘要  5-6
ABSTRACT  6-11
第1章 绪论  11-15
  1.1 研究背景  11-12
  1.2 支持JavaScript解析的网页采集技术发展现状  12-13
  1.3 本文主要工作  13
  1.4 本文组织结构  13-15
第2章 相关技术介绍  15-33
  2.1 JavaScript简介  15-17
    2.1.1 JavaScript语言概况  15
    2.1.2 JavaScript语言组成  15-16
    2.1.3 JavaScript在网页中的用法  16-17
  2.2 解析JavaScript的方法  17-18
  2.3 JS引擎介绍  18-21
    2.3.1 SpiderMonkey简介  18-20
    2.3.2 SpiderMonkey的使用  20-21
  2.4 搜索引擎简介  21-22
  2.5 搜索引擎组成部分  22-25
    2.5.1 爬虫器  22-23
    2.5.2 索引器  23-24
    2.5.3 索引库  24
    2.5.4 检索引擎  24-25
  2.6 搜索引擎国内外研究现状  25-26
  2.7 搜索引擎主要指标  26
  2.8 搜索引擎搜索策略  26-31
    2.8.1 无启发式搜索策略  27-29
    2.8.2 启发式搜索策略  29-30
    2.8.3 对广度优先搜索的优化  30-31
  2.9 本章小结  31-33
第3章 JavaScript解析器的设计与实现  33-45
  3.1 引言  33
  3.2 处理JavaScript的必要性  33-35
  3.3 网页抓取对JavaScript解析的需求  35-36
  3.4 JSParser设计  36-43
    3.4.1 总体结构设计  36-37
    3.4.2 初始化JSParser  37-38
    3.4.3 总控制程序  38
    3.4.4 读取语句控制  38-39
    3.4.5 解释执行控制  39
    3.4.6 解释执行  39-42
    3.4.7 表达式计算  42-43
  3.5 JSParser性能测试  43
  3.6 本章小结  43-45
第4章 采集系统设计与实现  45-69
  4.1 引言  45
  4.2 主要技术概要  45-48
    4.2.1 HTTP协议  45-46
    4.2.2 EPOLL技术  46-48
  4.3 系统总体设计  48-49
  4.4 模块工作模式  49
  4.5 采集模块详细设计  49-56
    4.5.1 模块结构图及说明  49-51
    4.5.2 算法描述  51-54
    4.5.3 需要考虑的问题及解决策略  54-56
  4.6 控制器设计  56-64
    4.6.1 模块结构图及说明  57-59
    4.6.2 URL接收  59-61
    4.6.3 URL选取  61-62
    4.6.4 URL分发  62-63
    4.6.5 页面收集  63-64
    4.6.6 URL监控  64
  4.7 系统测试  64-67
    4.7.1 JSParser对采集系统性能的影响  64-65
    4.7.2 采集系统性能测试  65-67
  4.8 本章小结  67-69
第5章 总结与展望  69-71
  5.1 工作总结  69
  5.2 下一步的工作  69-71
参考文献  71-75
致谢  75

相似论文

  1. 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
  2. 基于.NET环境的科技文献统一检索系统,TP391.3
  3. 基于AJAX技术的Deep Web爬虫实现方法研究,TP393.092
  4. Ajax友好的网络爬虫设计与实现,TP391.3
  5. 搜索引擎的研究与实现,TP391.3
  6. 文本页面图像分割与分类算法的研究,TP391.4
  7. 基于视觉特征的Web页面信息抽取算法,TP393.09
  8. 网页设计元素解析与探究,TP393.092
  9. 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
  10. 面向主题型的网页分类技术的研究与实现,TP393.092
  11. 基于博客的作者声誉度分析,TP393.092
  12. 基于界面设计的旅行预订网站UGC的诚信研究,TP393.092
  13. 儿童网站的界面设计方法研究,TP393.092
  14. 基于嵌入式的HTML文本浏览器的设计与实现,TP393.092
  15. Web网页篡改检测的脆弱水印的研究,TP393.092
  16. 基于多特征的Web页面分块算法MFPS的研究与实现,TP393.092
  17. 基于缓存策略的嵌入式浏览器解析器的实现,TP393.092
  18. 延安市门户网站的设计与实现,TP393.092
  19. 微博客话题追踪及实时检索的相关研究,TP393.092
  20. 凉山旅游网站建设,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com