学位论文 > 优秀研究生学位论文题录展示

基于Nutch的主题爬虫研究与实现

作　者: 苏晓珂
导　师: 黄青松
学　校: 昆明理工大学
专　业: 计算机软件与理论
关键词: Nutch-0.7.1 主题爬虫中文自动分词训练文本距离分类
分类号: TP311.52
类　型: 硕士论文
年　份: 2007年
下　载: 1008次
引　用: 17次
阅　读: 论文下载

内容摘要

搜索引擎(Search Engine)是一个对Web上的信息资源进行搜集整理，然后提供查询的系统，实际是Web上的一类网站，这类网站与一般的网站不同，其主要工作是自动搜寻Web信息，将其进行分类、建立索引，然后把索引的内容存放到数据库中，便于以查询方式提交给用户。Web信息量的飞速增长对通用搜索引擎呈现了空前的挑战。越来越多的人希望能够快速且有效地找到自己所需要的信息。主题搜索引擎就是以构筑某一主题或学科领域的Web信息资源库为目标，侧重于主题相关网页的获取，采取一定机制，滤出不相关的网页，在查询结果排序时，应给予主题相关度高的网页更高的优先级。本文在研究开源Nutch工作原理的基础上，实现了一个主题爬虫，其目标是有选择地查找与预定义主题相关的网页，而不象通用搜索引擎一样，搜集和索引所有可访问的网页，这样可以避免访问其他不相关的网页，同时也有助于节省硬件和网络资源。基于Nutch的主题搜索引擎基本思想是根据训练得出的特征词典，将爬虫抓取到的网页在建索引之前进行主题判别分析，若属于本主题，则保留本网页为后面建立索引做准备；若不属于本主题则抛弃，避免占用更多空间，主要在网页解析、主题判别算法等方面进行了改进，并为它添加了中文分词等功能。

全文目录

摘要  3-4
Abstract  4-9
第一章绪论  9-13
  1.1 课题研究背景  9-11
    1.1.1 搜索引擎发展趋势  9
    1.1.2 主题搜索引擎产生背景  9-10
    1.1.3 主题搜索引擎研究现状  10-11
  1.2 本文主要工作  11-12
  1.3 论文结构  12-13
第二章 Nutch 相关技术  13-19
  2.1 Nutch 组成部分  13
  2.2 Nutch 搜索引擎的特点  13-14
  2.3 系统架构  14-18
    2.3.1 抓取部分组成  14-16
    2.3.2 抓取过程详解  16-18
  2.4 本章小结  18-19
第三章其他相关技术  19-29
  3.1 主题搜索引擎介绍  19-23
    3.1.1 搜索引擎基本工作原理  19-20
    3.1.2 主题搜索引擎与通用搜索引擎的区别  20-21
    3.1.3 主题搜索引擎信息采集策略  21-22
    3.1.4 主题搜索引擎重要部分  22-23
  3.2 Cygwin简介  23-24
  3.3 Tomcat介绍  24-25
  3.4 Luke介绍  25
  3.5 javaCC介绍  25-28
  3.6 本章小结  28-29
第四章自动分词及 Nutch分词修改  29-33
  4.1 ICTCLAS分词系统介绍  29-30
  4.2 文本自动分词  30-31
  4.3 Nutch中文分词  31-32
  4.4 本章小结  32-33
第五章基于 Nutch的主题搜索引擎实现  33-53
  5.1 系统结构  33-34
  5.2 起始 URL列表的形成  34-37
    5.2.1 筛选出高质量页面的规则  34-36
    5.2.2 URL队列的获得  36-37
  5.3 设计主题模块  37-40
    5.3.1 主题模块用例设计  37-39
    5.3.2 主题模块 UML用例图  39-40
    5.3.3 主题模块类图  40
  5.4 训练文本部分  40-47
    5.4.1 文本训练过程  40-41
    5.4.2 特征项抽取  41-43
    5.4.3 主题的表达  43-44
    5.4.4 使用信息增益法求取特征向量  44-47
      5.4.4.1 信息增益法介绍  45-46
      5.4.4.2 信息增益法提取特征向量  46-47
  5.5 距离分类部分  47-52
    5.5.1 分类的评估指标  47-48
    5.5.2 距离分类器介绍  48-51
    5.5.3 距离分类器的实现过程  51-52
      5.5.3.1 提取和分类有关的信息  51
      5.5.3.2 距离分类实现程序  51-52
  5.6 本章小结  52-53
第六章运行结果  53-57
  6.1 开发环境  53
  6.2 运行步骤  53-56
    6.2.1 设置环境变量  53
    6.2.2 抓取网站页面前的准备工作  53-54
    6.2.3 运行 Crawl 命令抓取网站内容  54-55
    6.2.4 使用 Tomcat 进行搜索测试  55-56
  6.3 本章小结  56-57
第七章总结与展望  57-59
致谢  59-60
参考文献  60-63
附录 A  63-78
  A.1 调用 ICTCLAS 对文本分词  63-65
  A.2 termFrequen ( ) 统计词频  65-66
  A.3 修改 Summarizer.java  66-68
  A.4 将文本文件读入字符串中 readTextFile ( )  68-69
  A.5 将主文本保存到硬盘 SaveText ( )  69-70
  A.6 使用信息增益法选取特征词  70-71
  A.7 得到 Title文本  71-72
  A.8 从父网页中提取锚文本  72-73
  A.9 得到主文本  73-76
  A.10 实现距离分类器  76-78
附录 B 攻读学位期间发表论文情况  78

相似论文

基于SVM分类算法的主题爬虫研究,TP391.3
面向汽车行业的主题爬虫研究与实现,TP391.3
主题搜索引擎关键技术研究,TP391.3
面向海量数据的云存储系统实现与应用研究,TP333
主题搜索引擎中的爬取技术研究,TP391.3
混凝土桥梁病害检测系统的研究与实现,TP274
移动垂直搜索系统的研究,TP391.3
面向中医药的多元语义搜索引擎,TP391.3
基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
基于遗传算法的主题爬虫搜索策略研究,TP391.3
主题爬虫的研究与实现,TP391.3
主题搜索引擎的研究与实现,TP391.3
主题爬虫URL分析模型与调度技术研究,TP393.092
基于Groovy的分布式网络爬虫系统的设计与实现,TP391.3
基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现,TP391.3
主题爬虫系统的研究,TP391.3
基于DSP的火焰检测技术在工程中的应用,TP274.4
城市地名地址匹配方法研究与实验,P208
基于半监督聚类的爬虫在线样本生成算法,TP393.092
基于非常快速退火搜索算法的主题爬虫研究与实现,TP391.3
主题网络爬虫关键技术研究,TP391.3