学位论文 > 优秀研究生学位论文题录展示
基于Nutch的图情博客搜索引擎的设计与实现
作 者: 陈必坤
导 师: 张怀涛
学 校: 郑州大学
专 业: 图书馆学
关键词: Lucene Nutch 搜索引擎 主题搜索引擎 图情博客 博客
分类号: G250.73
类 型: 硕士论文
年 份: 2011年
下 载: 144次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Web2.0理念和技术的兴起,全球互联网用户享受到了丰富多样的交互性信息服务,博客正是这种交互性信息服务的典型代表。在这种时代背景下,图书情报学领域的学生、研究人员等纷纷开设博客进行信息交流。然而,图情博客分散、博文质量参差不齐的现状给界内人士的使用带来了不便,虽然Google博客搜索、百度博客搜索等相关的主题搜索引擎已经解决了一些问题,但是仍旧不能满足图情界用户的需求。本文就是针对这一问题尝试构建图情博客搜索引擎,以满足图情用户的需求。本文首先对搜索引擎相关技术和图情博客进行分析,其次引入Nutch这一开源搜索引擎并基于Nutch制定了图情博客搜索引擎的设计方案,再次依据该设计方案开发出相应的主题搜索引擎,最后以实验的方法对该主题搜索引擎的性能进行评估。本文各章节的主要内容如下:1绪论。本章介绍了论文的选题背景、选题意义、国内外研究现状、所采用的研究方法和创新之处。2搜索引擎相关技术及图情博客分析。本章首先分析了搜索引擎、主题搜索引擎的运行原理,指出二者的主要区别在于信息采集模块和网页内容解析模块两部分,主题搜索引擎改进了网络爬虫模块和并在网页内容解析模块增加了主题词库进行信息过滤。其次从博客站点结构、博客页面内容、博客之间链接结构三方面对图情博客进行分析,以增加对图情博客的全面认识。3 Nutch简介及Nutch系统的运行环境配置与运行。本章首先介绍了开源搜索引擎Nutch的基本情况和框架结构,对Nutch有个初步的认识。然后配置Nutch系统的运行环境并详细阐释其运行流程,对Nutch的运行原理和详细结构有进一步的认识。4基于Nutch的图情博客搜索引擎的设计。本章依据软件工程的思想,首先分析搜索引擎系统要实现的目标、要解决的问题以及可行性,然后通过用例图(Use Case Diagram)和序列图(Sequence Diagram)对系统的用户需求进行阐述,最后给出了系统的总体设计方案和详细设计方案。5基于Nutch的图情博客搜索引擎的核心模块实现。本章对详细设计方案中的三个核心模块进行实现。首先是借助图书情报学的信息检索理论和实践对主题资源发现模块进行实现,其次是通过软件分析对爬虫模块的采集策略进行实现,最后是根据用户需求对检索模块进行改进。6实验测试分析与结论。本章首先设定了一系列参数并依据这些参数进行了六轮实验测试,然后对测试结果进行了分析。最后,笔者总结了图情博客搜索引擎的特点及不足之处,并对以后的改进工作做出了展望。
|
全文目录
摘要 4-6 Abstract 6-12 1 绪论 12-17 1.1 选题背景及意义 12 1.2 国内外研究综述 12-16 1.2.1 国内研究综述 12-15 1.2.2 国外研究综述 15-16 1.3 研究方法与创新 16-17 1.3.1 研究方法 16 1.3.2 创新之处 16-17 2 搜索引擎相关技术及图情博客分析 17-23 2.1 搜索引擎运行原理 17-18 2.1.1 网页信息采集模块运行原理 18 2.1.2 网页内容解析模块运行原理 18 2.1.3 网页索引模块运行原理 18 2.1.4 网页信息查询处理模块运行原理 18 2.2 主题搜索引擎运行原理 18-20 2.3 图情博客分析 20-23 2.3.1 博客站点结构 20-21 2.3.2 博客页面内容 21-22 2.3.3 博客之间链接结构 22-23 3 Nutch简介及Nutch系统的运行环境配置与运行 23-31 3.1 Nutch简介 23-24 3.2 Nutch系统的运行环境配置与运行 24-31 3.2.1 Nutch系统的运行环境配置 24-25 3.2.2 Nutch系统的运行 25-31 4 基于Nutch的图情博客搜索引擎的设计 31-39 4.1 系统的问题定义和可行性研究 31-32 4.2 系统的需求分析 32-36 4.2.1 系统的用户需求内容 32-33 4.2.2 系统的用例分析图 33 4.2.3 系统的序列分析图 33-36 4.3 系统的设计 36-39 4.3.1 系统的总体设计 36-37 4.3.2 系统的核心模块设计 37-39 5 基于Nutch的图情博客搜索引擎的核心模块实现 39-44 5.1 主题资源发现模块的实现 39-40 5.1.1 学术文献检索发现目标站点 39-40 5.1.2 网络信息检索发现目标站点 40 5.2 爬虫模块的采集策略的实现 40-42 5.2.1 网络爬虫经典采集策略 40-41 5.2.2 Nutch爬虫访问策略的制定 41-42 5.3 检索模块改进方案的实现 42-44 5.3.1 Web用户界面的个性化改进 42-43 5.3.2 检索词的高亮显示 43 5.3.3 检索结果翻页机制改进 43-44 6 实验测试分析与结论 44-47 6.1 图情博客搜索引擎实验测试及分析 44-45 6.2 结论 45-47 参考文献 47-50 致谢 50-52 附录 52-68 个人简历、在校期间发表的学术论文及研究成果 68
|
相似论文
- 博客应用于中职英语阅读教学的研究,G633.41
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 微博客营销信息的在线评论与转发对消费者态度的影响,F274;F224
- 主题搜索引擎关键技术研究,TP391.3
- 基于MVC设计模式的博客系统的设计与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 微博客话题追踪及实时检索的相关研究,TP393.092
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
中图分类: > 文化、科学、教育、体育 > 信息与知识传播 > 图书馆学、图书馆事业 > 图书馆学 > 图书馆自动化、网络化 > 网络资源开发与利用
© 2012 www.xueweilunwen.com
|