学位论文 > 优秀研究生学位论文题录展示
支持JavaScript解析的网页采集系统设计与实现
作 者: 白红霞
导 师: 常桂然
学 校: 东北大学
专 业: 计算机应用技术
关键词: 网页采集系统 用户视觉信息 JavaScript解析 页面分析 IP FIFO队列
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 145次
引 用: 1次
阅 读: 论文下载
内容摘要
随着搜索引擎的广泛应用,网页采集技术得到了长足发展。网页采集是搜索引擎工作流程的第一站,采集的页面质量将直接影响到搜索引擎提供查询服务的优劣。最理想的情形是采集与用户视觉信息一致(Coherent with Users’Vision Information, CUVI)的页面,这一概念一直是搜索引擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为宗旨设计并实现了一个网页采集系统。抓取CUVI页面首先需要进行网页重定向的处理操作,这是页面内JavaScript程序的主要功能之一。本文采集系统通过将JavaScript解析引入采集系统设计中,在很大程度上解决采集CUVI页面的问题。本文主要内容分JavaScript解析和采集系统设计与实现两部分展开。JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据进行调研分析,得到了JS程序在HTML文档中的功能分布。然后,根据采集系统对JavaScript解析的需求设计并实现了简易JS解析器——JSParser。最后,通过实验验证JSParser无论在性能上还是在功能上都能满足本文采集系统的需求。本文的采集系统由采集器和控制器两个模块组成。采集器在设计上,创新性地引入页面分析功能,并结合使用JSParser,达到了采集CUVI页面的初衷;在实现上,采用EPOLL技术解决了采集器对高并发度的要求。控制器维护一个站点IP FIFO (Fist In FistOut)队列,较好地解决了采集系统对IP和站点的抓取压力控制,使得采集器和互联网能够良好的协同工作。通过对系统进行多方面测试,得到引入JSParser对系统性能的影响不明显,并且本系统在IP富足的情况下,运行良好。
|
全文目录
摘要 5-6 ABSTRACT 6-11 第1章 绪论 11-15 1.1 研究背景 11-12 1.2 支持JavaScript解析的网页采集技术发展现状 12-13 1.3 本文主要工作 13 1.4 本文组织结构 13-15 第2章 相关技术介绍 15-33 2.1 JavaScript简介 15-17 2.1.1 JavaScript语言概况 15 2.1.2 JavaScript语言组成 15-16 2.1.3 JavaScript在网页中的用法 16-17 2.2 解析JavaScript的方法 17-18 2.3 JS引擎介绍 18-21 2.3.1 SpiderMonkey简介 18-20 2.3.2 SpiderMonkey的使用 20-21 2.4 搜索引擎简介 21-22 2.5 搜索引擎组成部分 22-25 2.5.1 爬虫器 22-23 2.5.2 索引器 23-24 2.5.3 索引库 24 2.5.4 检索引擎 24-25 2.6 搜索引擎国内外研究现状 25-26 2.7 搜索引擎主要指标 26 2.8 搜索引擎搜索策略 26-31 2.8.1 无启发式搜索策略 27-29 2.8.2 启发式搜索策略 29-30 2.8.3 对广度优先搜索的优化 30-31 2.9 本章小结 31-33 第3章 JavaScript解析器的设计与实现 33-45 3.1 引言 33 3.2 处理JavaScript的必要性 33-35 3.3 网页抓取对JavaScript解析的需求 35-36 3.4 JSParser设计 36-43 3.4.1 总体结构设计 36-37 3.4.2 初始化JSParser 37-38 3.4.3 总控制程序 38 3.4.4 读取语句控制 38-39 3.4.5 解释执行控制 39 3.4.6 解释执行 39-42 3.4.7 表达式计算 42-43 3.5 JSParser性能测试 43 3.6 本章小结 43-45 第4章 采集系统设计与实现 45-69 4.1 引言 45 4.2 主要技术概要 45-48 4.2.1 HTTP协议 45-46 4.2.2 EPOLL技术 46-48 4.3 系统总体设计 48-49 4.4 模块工作模式 49 4.5 采集模块详细设计 49-56 4.5.1 模块结构图及说明 49-51 4.5.2 算法描述 51-54 4.5.3 需要考虑的问题及解决策略 54-56 4.6 控制器设计 56-64 4.6.1 模块结构图及说明 57-59 4.6.2 URL接收 59-61 4.6.3 URL选取 61-62 4.6.4 URL分发 62-63 4.6.5 页面收集 63-64 4.6.6 URL监控 64 4.7 系统测试 64-67 4.7.1 JSParser对采集系统性能的影响 64-65 4.7.2 采集系统性能测试 65-67 4.8 本章小结 67-69 第5章 总结与展望 69-71 5.1 工作总结 69 5.2 下一步的工作 69-71 参考文献 71-75 致谢 75
|
相似论文
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 基于.NET环境的科技文献统一检索系统,TP391.3
- 基于AJAX技术的Deep Web爬虫实现方法研究,TP393.092
- Ajax友好的网络爬虫设计与实现,TP391.3
- 搜索引擎的研究与实现,TP391.3
- 文本页面图像分割与分类算法的研究,TP391.4
- 基于视觉特征的Web页面信息抽取算法,TP393.09
- 网页设计元素解析与探究,TP393.092
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 面向主题型的网页分类技术的研究与实现,TP393.092
- 基于博客的作者声誉度分析,TP393.092
- 基于界面设计的旅行预订网站UGC的诚信研究,TP393.092
- 儿童网站的界面设计方法研究,TP393.092
- 基于嵌入式的HTML文本浏览器的设计与实现,TP393.092
- Web网页篡改检测的脆弱水印的研究,TP393.092
- 基于多特征的Web页面分块算法MFPS的研究与实现,TP393.092
- 基于缓存策略的嵌入式浏览器解析器的实现,TP393.092
- 延安市门户网站的设计与实现,TP393.092
- 微博客话题追踪及实时检索的相关研究,TP393.092
- 凉山旅游网站建设,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|