学位论文 > 优秀研究生学位论文题录展示
基于Nutch的主题爬虫研究与实现
作 者: 苏晓珂
导 师: 黄青松
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: Nutch-0.7.1 主题爬虫 中文自动分词 训练文本 距离分类
分类号: TP311.52
类 型: 硕士论文
年 份: 2007年
下 载: 1008次
引 用: 17次
阅 读: 论文下载
内容摘要
搜索引擎(Search Engine)是一个对Web上的信息资源进行搜集整理,然后提供查询的系统,实际是Web上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻Web信息,将其进行分类、建立索引,然后把索引的内容存放到数据库中,便于以查询方式提交给用户。Web信息量的飞速增长对通用搜索引擎呈现了空前的挑战。越来越多的人希望能够快速且有效地找到自己所需要的信息。主题搜索引擎就是以构筑某一主题或学科领域的Web信息资源库为目标,侧重于主题相关网页的获取,采取一定机制,滤出不相关的网页,在查询结果排序时,应给予主题相关度高的网页更高的优先级。本文在研究开源Nutch工作原理的基础上,实现了一个主题爬虫,其目标是有选择地查找与预定义主题相关的网页,而不象通用搜索引擎一样,搜集和索引所有可访问的网页,这样可以避免访问其他不相关的网页,同时也有助于节省硬件和网络资源。基于Nutch的主题搜索引擎基本思想是根据训练得出的特征词典,将爬虫抓取到的网页在建索引之前进行主题判别分析,若属于本主题,则保留本网页为后面建立索引做准备;若不属于本主题则抛弃,避免占用更多空间,主要在网页解析、主题判别算法等方面进行了改进,并为它添加了中文分词等功能。
|
全文目录
摘要 3-4 Abstract 4-9 第一章 绪论 9-13 1.1 课题研究背景 9-11 1.1.1 搜索引擎发展趋势 9 1.1.2 主题搜索引擎产生背景 9-10 1.1.3 主题搜索引擎研究现状 10-11 1.2 本文主要工作 11-12 1.3 论文结构 12-13 第二章 Nutch 相关技术 13-19 2.1 Nutch 组成部分 13 2.2 Nutch 搜索引擎的特点 13-14 2.3 系统架构 14-18 2.3.1 抓取部分组成 14-16 2.3.2 抓取过程详解 16-18 2.4 本章小结 18-19 第三章 其他相关技术 19-29 3.1 主题搜索引擎介绍 19-23 3.1.1 搜索引擎基本工作原理 19-20 3.1.2 主题搜索引擎与通用搜索引擎的区别 20-21 3.1.3 主题搜索引擎信息采集策略 21-22 3.1.4 主题搜索引擎重要部分 22-23 3.2 Cygwin简介 23-24 3.3 Tomcat介绍 24-25 3.4 Luke介绍 25 3.5 javaCC介绍 25-28 3.6 本章小结 28-29 第四章 自动分词及 Nutch分词修改 29-33 4.1 ICTCLAS分词系统介绍 29-30 4.2 文本自动分词 30-31 4.3 Nutch中文分词 31-32 4.4 本章小结 32-33 第五章 基于 Nutch的主题搜索引擎实现 33-53 5.1 系统结构 33-34 5.2 起始 URL列表的形成 34-37 5.2.1 筛选出高质量页面的规则 34-36 5.2.2 URL队列的获得 36-37 5.3 设计主题模块 37-40 5.3.1 主题模块用例设计 37-39 5.3.2 主题模块 UML用例图 39-40 5.3.3 主题模块类图 40 5.4 训练文本部分 40-47 5.4.1 文本训练过程 40-41 5.4.2 特征项抽取 41-43 5.4.3 主题的表达 43-44 5.4.4 使用信息增益法求取特征向量 44-47 5.4.4.1 信息增益法介绍 45-46 5.4.4.2 信息增益法提取特征向量 46-47 5.5 距离分类部分 47-52 5.5.1 分类的评估指标 47-48 5.5.2 距离分类器介绍 48-51 5.5.3 距离分类器的实现过程 51-52 5.5.3.1 提取和分类有关的信息 51 5.5.3.2 距离分类实现程序 51-52 5.6 本章小结 52-53 第六章 运行结果 53-57 6.1 开发环境 53 6.2 运行步骤 53-56 6.2.1 设置环境变量 53 6.2.2 抓取网站页面前的准备工作 53-54 6.2.3 运行 Crawl 命令抓取网站内容 54-55 6.2.4 使用 Tomcat 进行搜索测试 55-56 6.3 本章小结 56-57 第七章 总结与展望 57-59 致谢 59-60 参考文献 60-63 附录 A 63-78 A.1 调用 ICTCLAS 对文本分词 63-65 A.2 termFrequen ( ) 统计词频 65-66 A.3 修改 Summarizer.java 66-68 A.4 将文本文件读入字符串中 readTextFile ( ) 68-69 A.5 将主文本保存到硬盘 SaveText ( ) 69-70 A.6 使用信息增益法选取特征词 70-71 A.7 得到 Title文本 71-72 A.8 从父网页中提取锚文本 72-73 A.9 得到主文本 73-76 A.10 实现距离分类器 76-78 附录 B 攻读学位期间发表论文情况 78
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 主题搜索引擎中的爬取技术研究,TP391.3
- 混凝土桥梁病害检测系统的研究与实现,TP274
- 移动垂直搜索系统的研究,TP391.3
- 面向中医药的多元语义搜索引擎,TP391.3
- 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
- 基于遗传算法的主题爬虫搜索策略研究,TP391.3
- 主题爬虫的研究与实现,TP391.3
- 主题搜索引擎的研究与实现,TP391.3
- 主题爬虫URL分析模型与调度技术研究,TP393.092
- 基于Groovy的分布式网络爬虫系统的设计与实现,TP391.3
- 基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现,TP391.3
- 主题爬虫系统的研究,TP391.3
- 基于DSP的火焰检测技术在工程中的应用,TP274.4
- 城市地名地址匹配方法研究与实验,P208
- 基于半监督聚类的爬虫在线样本生成算法,TP393.092
- 基于非常快速退火搜索算法的主题爬虫研究与实现,TP391.3
- 主题网络爬虫关键技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|