学位论文 > 优秀研究生学位论文题录展示

基于URL规则的聚焦爬虫及其应用

作 者: 叶勤勇
导 师: 陈德人
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 垂直搜索引擎 聚焦爬虫 URL正则表达式学习 Nutch
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 816次
引 用: 7次
阅 读: 论文下载
 

内容摘要


随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,聚焦爬虫就是其中的一个重点需要解决的问题。本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律,提出了一个基于URL规则的聚焦爬虫(URL Rule Based Focused Crawl,简称UBFC)的算法,即从每个主题网页相关站点中自动学习出代表主题相关网页URL和主题无关网页URL的正则表达式,并用这些正则表达式来指导聚焦爬虫的抓取。接着介绍了UBFC在Nutch系统上的实现和URL正则表达式学习算法。最后我们对UBFC进行了应用和分析,特别是与广度优先搜索爬虫(BFSC)、基本聚焦爬虫(BLFC)的比较分析,表明UBFC在收获率上比后两者有了明显的提高,而且招回率也明显高于BLFC。

全文目录


摘要  3-4
Abstract  4-9
第1章 绪论  9-19
  1.1 问题的提出  9-10
  1.2 研究现状  10-17
    1.2.1 按照重要性对URL进行排序  10-11
    1.2.2 主题相邻性  11-12
    1.2.3 主题孤岛问题  12-13
    1.2.4 隧道技术  13
    1.2.5 CFC  13-14
    1.2.6 决策树  14-15
    1.2.7 类间链接规律  15-16
    1.2.8 增强学习  16-17
    1.2.9 分析总结  17
  1.3 本文的主要工作和组织结构  17-18
  1.4 本章小结  18-19
第2章 垂直搜索引擎Nutch概述  19-30
  2.1 垂直搜索引擎  19-24
    2.1.1 垂直搜索引擎架构  19
    2.1.2 聚焦爬虫  19-20
    2.1.3 WEB图生成器  20-21
    2.1.4 链接分析  21
    2.1.5 页面分类器  21-22
    2.1.6 信息抽取器  22
    2.1.7 索引构建器  22-23
    2.1.8 搜索  23
    2.1.9 网页评分  23
    2.1.10 缓存  23-24
  2.2 开源搜索引擎Nutch  24-29
    2.2.1 Lucene  25-26
    2.2.2 Hadoop  26-27
    2.2.3 Nutch架构  27-29
  2.3 本章小结  29-30
第3章 基于URL规则的聚焦爬虫  30-35
  3.1 用正则表达式概括同一网站内的主题相关页面  30
  3.2 解决主题孤岛问题  30-31
  3.3 URL正则表达式学习器  31
  3.4 一个基于URL规则的聚焦爬虫  31-34
    3.4.1 实验爬虫阶段  32-33
    3.4.2 聚焦爬虫阶段  33-34
  3.5 本章小结  34-35
第4章 基于URL规则的聚焦爬虫的实现  35-49
  4.1 URL正则表达式学习器的实现  35-41
    4.1.1 URL数据结构  35-36
    4.1.2 URL距离的度量  36-37
    4.1.3 划分  37-38
    4.1.4 聚合  38-39
    4.1.5 抽取  39-41
  4.2 实验爬虫阶段的实现  41-46
    4.2.1 站点过滤器  41-42
    4.2.2 URL数量过滤器  42-43
    4.2.3 实验爬虫  43-46
  4.3 聚焦爬虫阶段的实现  46-48
    4.3.1 URL正则表达式过滤器  46-47
    4.3.2 聚焦爬虫  47-48
  4.4 本章小结  48-49
第5章 基于URL规则的聚焦爬虫的应用与分析  49-67
  5.1 在抓取指定网站场景下的应用  49-62
    5.1.1 实验环境设置  50-53
    5.1.2 实验及其分析  53-62
  5.2 在抓取整个互联网上的主题相关页面场景下的应用  62-66
    5.2.1 寻找主题相关站点  63-66
  5.3 本章小结  66-67
第6章 总结与展望  67-69
  6.1 本文工作总结  67
  6.2 未来工作展望  67-69
参考文献  69-72
致谢  72

相似论文

  1. 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
  2. 基于Nutch的企业搜索引擎的研究与实现,TP391.3
  3. 主题搜索引擎关键技术研究,TP391.3
  4. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  5. 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
  6. 垂直搜索引擎的研究与实现,TP391.3
  7. 垂直搜索引擎技术的研究及实现,TP391.3
  8. 基于用户行为的面向领域搜索引擎研究,TP391.3
  9. 面向交易信息的垂直搜索引擎搜索机制研究与实现,TP391.3
  10. 基于Lucene的职位垂直搜索引擎的研究与实现,TP391.3
  11. 垂直搜索引擎在网络购物系统中的研究与应用,TP391.3
  12. 基于移动平台股票资讯搜索与预测系统研究,TP393.09
  13. 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3
  14. 基于SSH和Lucene垂直搜索引擎研究,TP391.3
  15. Deep Web垂直搜索引擎研究,TP311.52
  16. 基于Lucene技术的垂直搜索引擎的研究与实现,TP391.3
  17. 基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现,TP391.3
  18. 本体导向的对象级垂直资源抓取,TP391.1
  19. 基于垂直搜索引擎的旅游线路评价推荐系统的设计与实现,TP391.3
  20. 智能垂直搜索引擎的研究与设计,TP391.3
  21. Web信息采集技术研究与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com