学位论文 > 优秀研究生学位论文题录展示
主题网络爬虫关键技术研究
作 者: 王桂梅
导 师: 刘秉权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 主题爬虫 主题表示 相关性判断 主题预测 搜索策略
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 174次
引 用: 1次
阅 读: 论文下载
内容摘要
随着Internet的迅速发展,网络上的资源日趋丰富,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要,面向主题的搜索引擎应运而生,提供信息分类更细致精确的网络搜索服务。主题爬虫是面向主题搜索引擎的一个关键组成部分。主题爬虫根据用户定义的目标主题,智能化地从Web上收集主题相关的网页,能够快速、准确地得到网络中的有用信息资源。本文首先分析了主题爬虫的技术原理、工作流程,然后重点分析了爬虫的主题表示、主题相关性判断、主题预测及主题搜索策略。主要研究工作如下:第一,在主题表示方面,通用的基于关键词的主题表示精确度不高,为此,本文提出了利用交互策略进行基于关键词的主题表示。即,先经过程序分析,提供候选主题表示关键词,再由用户通过程序提供的接口进行关键词的修改。通过这种人工交互的半自动化方式,主题表示可以准确、全面地表达用户的需求。第二,本文提出了基于链接结构和网页内容的主题相关性判断方法,综合考虑了父网页的主题相关度、链入网页数目、网页文本内容及锚文本信息。这四个因素结合起来可以充分发挥各自的优点,准确判断网页是否主题相关。第三,本文分析了Shark-Search搜索策略算法的优缺点,并对算法进行改进。在Shark-Search中,主题预测算法采用了链接上下文信息,但是链接上下文信息通常充满嗓音,难以准确预测网页主题,而大部分网页的URL地址则包含了与网页内容相关联的语义标记,这些标记可以准确计算该URL主题相关性优先级,本文提出利用URL地址的主题相关性优先级代替Shark-Search算法中的链接上下文主题预测值。此外,Shark-Search算法存在很大贪婪性,难以在全局范围内找到最优解,所以本文在Shark-Search算法中引入隧道分析技术来解决算法的贪婪性问题。实验证明,应用改进的Shark-Search搜索策略,主题爬虫的“准确率”和“召回率”得到显著提高。第四,本文在上述理论分析的基础上,实现了一个主题爬虫系统。实验结果表明,该系统提供的数据有较高的准确率和覆盖率。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-17 1.1 课题研究的目的及意义 10-11 1.2 国内外相关技术发展现状 11-15 1.2.1 通用网络爬虫发展现状 11-13 1.2.2 主题网络爬虫发展现状 13-15 1.3 本文主要研究内容 15-17 第2章 主题表示及相关性判断研究 17-31 2.1 主题爬虫技术原理 17-19 2.2 主题表示技术 19-21 2.3 主题相关性判断方法 21-28 2.3.1 基于链接结构的主题相关性判断 22-24 2.3.2 基于网页内容的主题相关性判断 24-26 2.3.3 主题相关性计算 26-28 2.4 实验及结果分析 28-30 2.5 本章小结 30-31 第3章 基于改进Shark-Search 的主题搜索策略 31-53 3.1 主题搜索策略算法 31-33 3.1.1 Best First Search 算法 31-32 3.1.2 Fish-Search 算法 32 3.1.3 Shark-Search 算法 32-33 3.2 Shark-Search 算法分析 33-37 3.3 主题相关性预测 37-41 3.3.1 URL 地址的主题相关性分析 37-40 3.3.2 Shark-Search 中主题预测方法的改进 40-41 3.4 主题爬虫隧道技术分析 41-45 3.4.1 主题搜索中隧道难题 41-42 3.4.2 隧道技术分析 42-45 3.5 改进的Shark-Search 搜索策略算法 45-48 3.6 实验与结果分析 48-52 3.6.1 评价方法 48-49 3.6.2 实验结果 49-52 3.7 本章小结 52-53 第4章 主题网络爬虫系统设计 53-61 4.1 主题爬虫系统设计 53-59 4.1.1 主题爬虫体系结构 53-54 4.1.2 种子网页获取模块 54-55 4.1.3 主题表示模块 55-56 4.1.4 网页抓取模块 56-57 4.1.5 网页解析模块 57 4.1.6 主题相关性分析模块 57 4.1.7 主题预测模块 57-58 4.1.8 网页存储模块 58-59 4.2 爬虫系统性能测试 59-60 4.3 本章小结 60-61 结论 61-63 参考文献 63-68 致谢 68
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 多核环境下内存数据库查询优化的研究,TP311.13
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 红外热像仪自动调焦和图像采集技术的研究,TP391.41
- 主题搜索引擎中的爬取技术研究,TP391.3
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 求解组合优化问题的混合蛙跳算法的研究,TP301.6
- 小干扰稳定分析软件包SSAP的完善和在交直流并行输电系统中的应用,TM769
- 移动垂直搜索系统的研究,TP391.3
- 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
- 基于遗传算法的主题爬虫搜索策略研究,TP391.3
- 主题爬虫的研究与实现,TP391.3
- 面向用户兴趣的Web搜索策略的研究与实现,TP391.3
- 地磁匹配导航算法研究,TN966
- 无线传感器网络目标定位技术研究,TP212.9
- 无结构P2P网络搜索策略的研究,TP393.02
- 主题搜索引擎的研究与实现,TP391.3
- 成像面目标跟踪技术研究,TP391.41
- 主题爬虫URL分析模型与调度技术研究,TP393.092
- 基于Groovy的分布式网络爬虫系统的设计与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|