学位论文 > 优秀研究生学位论文题录展示

Ajax友好的网络爬虫设计与实现

作 者: 张媚
导 师: 黄穗
学 校: 暨南大学
专 业: 计算机应用技术
关键词: Ajax 网络爬虫 JavaScript解析 信息抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 147次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着以用户为核心的新一代Web应用模式——Web2.0如火如荼,Ajax技术获得了广泛应用,比如网易博客、卓越亚马逊、Google等。Ajax采用JavaScript驱动的异步请求/响应机制,而传统爬虫缺乏对Javascript语义上的理解,无法模拟触发Javascript的异步调用并解析返回的异步数据。此外在Ajax的应用中,Javascript会对DOM结构进行大量地变动,通过DOM操作动态更新页面内容,而传统网络爬虫默认页面的DOM结构是相对静态不变的。Ajax技术的应用给传统网络爬虫造成很大障碍,必然影响搜索引擎的信息采集。针对上述问题,本文通过HTTP请求,获取网页源代码信息。构建DOM树并对页面进行分析处理,去掉噪声信息。通过遍历DOM树提取其中JavaScript脚本代码和文件。构建浏览器内置对象,然后利用开源的脚本解析引擎Rhino跟踪执行这些JavaScript代码,从而实现Ajax页面内动态加载的超链接地址的获取。并进一步对解析后的页面采用XPath表达式快速定位需要抓取的内容,生成抽取规则,以XML格式存储抽取规则和数据,并使用XSLT进行转换最终以HTML页面的形式呈现。最终解决Ajax网站中URL获取以及动态内容的获取。本文实现了Ajax友好的网络爬虫系统,提出浏览器内置对象的本地构建,利用Rhino解析JavaScript脚本中的Ajax调用,获得其异步请求返回的数据,为Ajax友好的网络爬虫提供了新的解决方案。最后通过实验,证明本文研究的可行性。

全文目录


摘要  4-5
Abstract  5-6
目录  6-7
第一章 绪论  7-11
  1.1 研究背景  7-8
  1.2 研究现状与发展趋势  8-9
  1.3 研究目的和意义  9
  1.4 论文内容和结构  9-11
第二章 相关概念介绍  11-24
  2.1 动态网页  11-12
  2.2 Web2.0  12-13
  2.3 Ajax概述  13-23
  2.4 本章小结  23-24
第三章 Ajax网络爬虫设计方案  24-32
  3.1 传统网络爬虫  24-27
  3.2 支持Ajax的爬虫  27-31
  3.3 本章小结  31-32
第四章 Ajax网络爬虫实现  32-47
  4.1 网页采集模块  32-37
  4.2 网页预处理模块  37-40
  4.3 网页识别模块  40-42
  4.4 本地浏览器内置对象构建模块  42-45
  4.5 调用Rhino解析脚本模块  45-46
  4.6 页面生成模块  46
  4.7 本章小结  46-47
第五章 抽取动态信息  47-57
  5.1 相关技术  47-51
  5.2 动态信息抽取流程  51-56
  5.3 本章小结  56-57
第六章 系统运行实验  57-63
  6.1 实验  57
  6.2 测试  57-63
第七章 总结与展望  63-65
  7.1 结论  63
  7.2 展望  63-65
参考文献  65-68
硕士期间发表论文  68-69
致谢  69

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  4. 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
  5. 基于嵌入式Web服务器的监控系统研究,TP393.05
  6. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  7. 网页属性抽取的方法研究,TP391.1
  8. 数字化查账系统研究,TP311.52
  9. 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
  10. 社区WebGIS原型系统设计与实现,P208
  11. 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
  12. 基于SNS的网络协作学习平台设计与实现,TP311.52
  13. 高校学生工作管理系统的分析与设计,TP311.52
  14. Web管理信息系统性能优化研究,TP311.52
  15. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  16. 宜春学院学生就业管理系统的设计与实现,TP311.52
  17. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  18. 构件垂直搜索引擎的关键技术研究,TP391.3
  19. 面向教育新闻的主题爬虫设计与实现,TP391.3
  20. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  21. 学术主页信息抽取系统的研究,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com