学位论文 > 优秀研究生学位论文题录展示
Ajax友好的网络爬虫设计与实现
作 者: 张媚
导 师: 黄穗
学 校: 暨南大学
专 业: 计算机应用技术
关键词: Ajax 网络爬虫 JavaScript解析 信息抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 147次
引 用: 1次
阅 读: 论文下载
内容摘要
随着以用户为核心的新一代Web应用模式——Web2.0如火如荼,Ajax技术获得了广泛应用,比如网易博客、卓越亚马逊、Google等。Ajax采用JavaScript驱动的异步请求/响应机制,而传统爬虫缺乏对Javascript语义上的理解,无法模拟触发Javascript的异步调用并解析返回的异步数据。此外在Ajax的应用中,Javascript会对DOM结构进行大量地变动,通过DOM操作动态更新页面内容,而传统网络爬虫默认页面的DOM结构是相对静态不变的。Ajax技术的应用给传统网络爬虫造成很大障碍,必然影响搜索引擎的信息采集。针对上述问题,本文通过HTTP请求,获取网页源代码信息。构建DOM树并对页面进行分析处理,去掉噪声信息。通过遍历DOM树提取其中JavaScript脚本代码和文件。构建浏览器内置对象,然后利用开源的脚本解析引擎Rhino跟踪执行这些JavaScript代码,从而实现Ajax页面内动态加载的超链接地址的获取。并进一步对解析后的页面采用XPath表达式快速定位需要抓取的内容,生成抽取规则,以XML格式存储抽取规则和数据,并使用XSLT进行转换最终以HTML页面的形式呈现。最终解决Ajax网站中URL获取以及动态内容的获取。本文实现了Ajax友好的网络爬虫系统,提出浏览器内置对象的本地构建,利用Rhino解析JavaScript脚本中的Ajax调用,获得其异步请求返回的数据,为Ajax友好的网络爬虫提供了新的解决方案。最后通过实验,证明本文研究的可行性。
|
全文目录
摘要 4-5 Abstract 5-6 目录 6-7 第一章 绪论 7-11 1.1 研究背景 7-8 1.2 研究现状与发展趋势 8-9 1.3 研究目的和意义 9 1.4 论文内容和结构 9-11 第二章 相关概念介绍 11-24 2.1 动态网页 11-12 2.2 Web2.0 12-13 2.3 Ajax概述 13-23 2.4 本章小结 23-24 第三章 Ajax网络爬虫设计方案 24-32 3.1 传统网络爬虫 24-27 3.2 支持Ajax的爬虫 27-31 3.3 本章小结 31-32 第四章 Ajax网络爬虫实现 32-47 4.1 网页采集模块 32-37 4.2 网页预处理模块 37-40 4.3 网页识别模块 40-42 4.4 本地浏览器内置对象构建模块 42-45 4.5 调用Rhino解析脚本模块 45-46 4.6 页面生成模块 46 4.7 本章小结 46-47 第五章 抽取动态信息 47-57 5.1 相关技术 47-51 5.2 动态信息抽取流程 51-56 5.3 本章小结 56-57 第六章 系统运行实验 57-63 6.1 实验 57 6.2 测试 57-63 第七章 总结与展望 63-65 7.1 结论 63 7.2 展望 63-65 参考文献 65-68 硕士期间发表论文 68-69 致谢 69
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
- 基于嵌入式Web服务器的监控系统研究,TP393.05
- 基于Web的科学计算遗留应用共享技术研究,TP393.09
- 网页属性抽取的方法研究,TP391.1
- 数字化查账系统研究,TP311.52
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 社区WebGIS原型系统设计与实现,P208
- 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
- 基于SNS的网络协作学习平台设计与实现,TP311.52
- 高校学生工作管理系统的分析与设计,TP311.52
- Web管理信息系统性能优化研究,TP311.52
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 宜春学院学生就业管理系统的设计与实现,TP311.52
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|