学位论文 > 优秀研究生学位论文题录展示

基于Nutch的主题爬虫研究与实现

作 者: 苏晓珂
导 师: 黄青松
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: Nutch-0.7.1 主题爬虫 中文自动分词 训练文本 距离分类
分类号: TP311.52
类 型: 硕士论文
年 份: 2007年
下 载: 1008次
引 用: 17次
阅 读: 论文下载
 

内容摘要


搜索引擎(Search Engine)是一个对Web上的信息资源进行搜集整理,然后提供查询的系统,实际是Web上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻Web信息,将其进行分类、建立索引,然后把索引的内容存放到数据库中,便于以查询方式提交给用户。Web信息量的飞速增长对通用搜索引擎呈现了空前的挑战。越来越多的人希望能够快速且有效地找到自己所需要的信息。主题搜索引擎就是以构筑某一主题或学科领域的Web信息资源库为目标,侧重于主题相关网页的获取,采取一定机制,滤出不相关的网页,在查询结果排序时,应给予主题相关度高的网页更高的优先级。本文在研究开源Nutch工作原理的基础上,实现了一个主题爬虫,其目标是有选择地查找与预定义主题相关的网页,而不象通用搜索引擎一样,搜集和索引所有可访问的网页,这样可以避免访问其他不相关的网页,同时也有助于节省硬件和网络资源。基于Nutch的主题搜索引擎基本思想是根据训练得出的特征词典,将爬虫抓取到的网页在建索引之前进行主题判别分析,若属于本主题,则保留本网页为后面建立索引做准备;若不属于本主题则抛弃,避免占用更多空间,主要在网页解析、主题判别算法等方面进行了改进,并为它添加了中文分词等功能。

全文目录


摘要  3-4
Abstract  4-9
第一章 绪论  9-13
  1.1 课题研究背景  9-11
    1.1.1 搜索引擎发展趋势  9
    1.1.2 主题搜索引擎产生背景  9-10
    1.1.3 主题搜索引擎研究现状  10-11
  1.2 本文主要工作  11-12
  1.3 论文结构  12-13
第二章 Nutch 相关技术  13-19
  2.1 Nutch 组成部分  13
  2.2 Nutch 搜索引擎的特点  13-14
  2.3 系统架构  14-18
    2.3.1 抓取部分组成  14-16
    2.3.2 抓取过程详解  16-18
  2.4 本章小结  18-19
第三章 其他相关技术  19-29
  3.1 主题搜索引擎介绍  19-23
    3.1.1 搜索引擎基本工作原理  19-20
    3.1.2 主题搜索引擎与通用搜索引擎的区别  20-21
    3.1.3 主题搜索引擎信息采集策略  21-22
    3.1.4 主题搜索引擎重要部分  22-23
  3.2 Cygwin简介  23-24
  3.3 Tomcat介绍  24-25
  3.4 Luke介绍  25
  3.5 javaCC介绍  25-28
  3.6 本章小结  28-29
第四章 自动分词及 Nutch分词修改  29-33
  4.1 ICTCLAS分词系统介绍  29-30
  4.2 文本自动分词  30-31
  4.3 Nutch中文分词  31-32
  4.4 本章小结  32-33
第五章 基于 Nutch的主题搜索引擎实现  33-53
  5.1 系统结构  33-34
  5.2 起始 URL列表的形成  34-37
    5.2.1 筛选出高质量页面的规则  34-36
    5.2.2 URL队列的获得  36-37
  5.3 设计主题模块  37-40
    5.3.1 主题模块用例设计  37-39
    5.3.2 主题模块 UML用例图  39-40
    5.3.3 主题模块类图  40
  5.4 训练文本部分  40-47
    5.4.1 文本训练过程  40-41
    5.4.2 特征项抽取  41-43
    5.4.3 主题的表达  43-44
    5.4.4 使用信息增益法求取特征向量  44-47
      5.4.4.1 信息增益法介绍  45-46
      5.4.4.2 信息增益法提取特征向量  46-47
  5.5 距离分类部分  47-52
    5.5.1 分类的评估指标  47-48
    5.5.2 距离分类器介绍  48-51
    5.5.3 距离分类器的实现过程  51-52
      5.5.3.1 提取和分类有关的信息  51
      5.5.3.2 距离分类实现程序  51-52
  5.6 本章小结  52-53
第六章 运行结果  53-57
  6.1 开发环境  53
  6.2 运行步骤  53-56
    6.2.1 设置环境变量  53
    6.2.2 抓取网站页面前的准备工作  53-54
    6.2.3 运行 Crawl 命令抓取网站内容  54-55
    6.2.4 使用 Tomcat 进行搜索测试  55-56
  6.3 本章小结  56-57
第七章 总结与展望  57-59
致谢  59-60
参考文献  60-63
附录 A  63-78
  A.1 调用 ICTCLAS 对文本分词  63-65
  A.2 termFrequen ( ) 统计词频  65-66
  A.3 修改 Summarizer.java  66-68
  A.4 将文本文件读入字符串中 readTextFile ( )  68-69
  A.5 将主文本保存到硬盘 SaveText ( )  69-70
  A.6 使用信息增益法选取特征词  70-71
  A.7 得到 Title文本  71-72
  A.8 从父网页中提取锚文本  72-73
  A.9 得到主文本  73-76
  A.10 实现距离分类器  76-78
附录 B 攻读学位期间发表论文情况  78

相似论文

  1. 基于SVM分类算法的主题爬虫研究,TP391.3
  2. 面向汽车行业的主题爬虫研究与实现,TP391.3
  3. 主题搜索引擎关键技术研究,TP391.3
  4. 面向海量数据的云存储系统实现与应用研究,TP333
  5. 主题搜索引擎中的爬取技术研究,TP391.3
  6. 混凝土桥梁病害检测系统的研究与实现,TP274
  7. 移动垂直搜索系统的研究,TP391.3
  8. 面向中医药的多元语义搜索引擎,TP391.3
  9. 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
  10. 基于遗传算法的主题爬虫搜索策略研究,TP391.3
  11. 主题爬虫的研究与实现,TP391.3
  12. 主题搜索引擎的研究与实现,TP391.3
  13. 主题爬虫URL分析模型与调度技术研究,TP393.092
  14. 基于Groovy的分布式网络爬虫系统的设计与实现,TP391.3
  15. 基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现,TP391.3
  16. 主题爬虫系统的研究,TP391.3
  17. 基于DSP的火焰检测技术在工程中的应用,TP274.4
  18. 城市地名地址匹配方法研究与实验,P208
  19. 基于半监督聚类的爬虫在线样本生成算法,TP393.092
  20. 基于非常快速退火搜索算法的主题爬虫研究与实现,TP391.3
  21. 主题网络爬虫关键技术研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com