学位论文 > 优秀研究生学位论文题录展示
实时垂直搜索引擎的爬虫技术研究
作 者: 陈飞
导 师: 周东清
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 动态脚本 嵌入式浏览器 实时搜索 数据抓取 泊松过程
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 154次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的迅猛发展,特别是Web 2.0时代的到来,网站在格式和内容上都发生了比较大的变化,越来越多的网站开始采用动态网页。这类网页摆脱了传统的只能由服务器发布网站内容的束缚,允许普通的用户创建,修改和发布网站内容。为了创建动态网页,Ajax技术应运而生。Ajax技术大大的改善了用户的使用体验和网页的交互响应速度。除此之外,Web 2.0网站的网页内容信息来源更加的多样化,信息在时效性的要求上也比传统的方式更加严格。为了解决这些问题,传统的爬虫技术必须在抓取动态内容和时效性两个方面进行改进。在抓取动态内容方面,由于在动态网页中,页面的内容需要执行动态脚本才能得到,页面的跳转不再仅仅通过标签<a>来实现,URL也不再是页面的唯一标识。本文提出了一种支持Ajax的爬虫模型,该模型使用嵌入式浏览器实现对动态脚本的解析以及提出了一种高效的获取动态脚本网站有效页面的方法,首先通过训练得到触发哪些页面元素的哪些事件能跳转至有效页面,总结出这些页面元素的XPath特征以及相应的事件类型,在应用阶段只触发这些页面元素上特定的事件。最后通过实验证明了本文方法的效率和性能。在时效性方面,本文着重研究了实时搜索中数据抓取的基本问题,并提出了一种通过分析数据对象的历史变化过程对对象的变化频率进行预测的方法。针对实时垂直搜索领域中,对象的热门程度的变化与传统搜索相比更加敏感的问题,提出了一种基于对象属性关联的热门预测模型,对对象的热门程度进行预测。在综合考虑对象权重和变化频率的基础上,提出了一种基于泊松过程的抓取策略,实现了针对对象变化的抓取策略,提高了抓取资源的利用率和和数据的新鲜度。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-12 1.1 课题背景及意义 8-9 1.2 国内外研究现状 9-10 1.3 论文主要研究内容 10 1.4 论文组织结构 10-12 2 相关技术的研究现状 12-24 2.1 传统网络爬虫的相关研究 12-13 2.1.1 基本原理 12 2.1.2 工作流程 12-13 2.1.3 网页抓取策略 13 2.1.4 传统网络爬虫的不足 13 2.2 Ajax爬虫的相关研究 13-17 2.2.1 Ajax技术相关介绍 13-16 2.2.2 动态脚本解析 16 2.2.3 状态转换图 16-17 2.3 实时搜索调度的相关研究 17-23 2.3.1 网页和对象排序 18-19 2.3.2 页面变化规律 19-20 2.3.3 数据新鲜程度 20-23 2.4 本章小结 23-24 3 基于动态转换图的网页抓取 24-35 3.1 动态脚本解析 24-25 3.2 动态状态转换图模型 25-30 3.2.1 动态状态转换图定义 25-27 3.2.2 页面相似性判定 27 3.2.3 基于动态状态转换图的爬行算法 27-29 3.2.4 爬行算法的主要问题 29-30 3.3 算法改进 30-34 3.3.1 Web页面区域划分 30-32 3.3.2 基于Xpath特征的有效元素的检测 32-34 3.4 本章小结 34-35 4 基于时间敏感的实时调度策略 35-48 4.1 数据抓取更新策略 35-40 4.1.1 数据抓取策略 35-37 4.1.2 数据更新策略 37-39 4.1.3 数据重抓频率 39 4.1.4 数据抓取顺序 39-40 4.2 基于查询驱动的抓取技术 40-43 4.3 对象变化频率的估算方法 43-45 4.3.1 对象变化的采样方法 43-44 4.3.2 预测对象变化规律 44-45 4.4 对象热门程度预测 45-46 4.5 基于泊松过程的抓取调度策略 46-47 4.6 本章小结 47-48 5 测试和实验 48-53 5.1 网页抓取结果比较 48-49 5.2 对象热门程度预测模型的验证 49-50 5.3 基于泊松过程的抓取调度策略的验证 50-51 5.4 本章小结 51-53 结论 53-54 参考文献 54-56 攻读硕士学位期间发表学术论文情况 56-57 致谢 57-58
|
相似论文
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 嵌入式浏览器网页排版技术研究与实现,TP393.092
- 嵌入式视频点播系统的设计与实现,TN948.64
- 嵌入式浏览器网页显示的研究与实现,TP368.1
- 嵌入式浏览器多线程机制研究与设计,TP393.092
- 基于QT的嵌入式GUI和浏览器的实现,TP393.092
- 基于PubSubHubbub协议的Hub服务器的设计与实现,TP368.5
- 基于嵌入式的HTML文本浏览器的设计与实现,TP393.092
- 基于缓存策略的嵌入式浏览器解析器的实现,TP393.092
- 基于ARM的数控浏览器相关技术的研究与实现,TP368.1
- 基于VxWorks的嵌入式浏览器解析与布局模块研究,TP393.092
- 基于电子邮件网络的人类动力学研究,TP393.098
- 考虑测试效率的软件可靠性模型,TP311.53
- 基于WAP的嵌入式浏览器的关键技术的研究,TP393.092
- 餐馆自助点菜系统的设计与实现,TP311.52
- 软件可靠性增长分析及其动态评估,TP311.53
- 嵌入式浏览器设计与实现,TP393.092
- 实时垂直搜索引擎数据抓取调度研究,TP391.3
- 基于移动平台的社交网络的设计与实现,O157.5
- 带随机拐点的退化失效建模与分析方法研究,TB114.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|