学位论文 > 优秀研究生学位论文题录展示

基于Web搜索引擎系统的设计与实现

作 者: 连蒴
导 师: 叶德建
学 校: 复旦大学
专 业: 软件工程
关键词: 搜索引擎 Lucene Heritrix MVC
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 168次
引 用: 1次
阅 读: 论文下载
 

内容摘要


为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息,搜索引擎逐渐走进了人们的生活,“竹竹”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。然后,对“竹竹”搜索引擎系统进行需求分析,对系统进行总体设计,并对系统的各个功能模块进行详细的设计和实现,最后“竹竹”搜索引擎系统进行了测试。“竹竹”搜索引擎是基于Web的,面向笔记本电脑品牌的搜索引擎。系统的前端以MVC模式来实现,Spring做中间层,JDBC作后端来开发实现的。本系统分为三个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中;该模块使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,由于笔记本电脑的品牌名在现有词库中不存在,因此要建立其特有的词库文件,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中;该模块通过Lucene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。用户模块实现的主要功能是:用户模块是系统的用户接口;用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的品牌信息后,系统将在可以接受的时间内,返回用户所需的结果集;该模块通过DWR封装了AJAX技术,处理用户请求;通过Lucene的API来实现检索。

全文目录


摘要  4-5
ABSTRACT  5-6
第一章 绪论  6-15
  1.1 选题背景  6-8
    1.1.1 搜索引擎的发展历史  6-8
  1.2 研究现状  8-10
    1.2.1 搜索引擎的概念  8-9
    1.2.2 搜索引擎的分类  9-10
  1.3 本论文的研究内容  10
  1.4 相关技术介绍  10-14
    1.4.1 Heritrix  10-12
    1.4.2 Lucene  12-14
  1.5 论文章节结构  14-15
第二章 系统需求分析  15-21
  2.1 系统功能需求  15
  2.2 系统性能需求  15-21
    2.2.1 抓取模块  16-18
    2.2.2 处理模块  18-19
    2.2.3 用户模块  19-21
第三章 系统总体设计  21-23
  3.1 搜索引擎的工作原理  21
  3.2 "竹竹"搜索引擎的总体架构设计  21-23
第四章 系统详细设计与实现  23-43
  4.1 系统实现的总体逻辑  23
  4.2 抓取模块  23-34
    4.2.1 Heritrix子模块工作流程  23-25
    4.2.2 运行Heritrix子模块  25-31
    4.2.3 分析网页子模块  31-34
  4.3 处理模块  34-41
    4.3.1 解析网页子模块  34-36
    4.3.2 创建词库子模块  36
    4.3.3 生成持久化类子模块  36
    4.3.4 创建Document子模块  36-40
    4.3.5 存储数据子模块  40-41
  4.4 用户模块  41-43
    4.4.1 搜索页面  41-42
    4.4.2 详细信息页面  42-43
第五章 系统测试  43-46
  5.1 系统测试的分类  43-46
    5.1.1 线下功能测试  43-45
    5.1.2 线下性能测试  45
    5.1.3 线上的功能测试  45
    5.1.4 线上的性能测试  45-46
结论  46-47
参考文献  47-48
致谢  48-49

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 基于BP网络的元搜索引擎研究,TP391.3
  4. 基于SOA与工作流的OA系统的研究与实现,TP311.52
  5. 设计模式在银行支付系统中的应用研究,TP311.52
  6. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  7. 基于MVC的校园电子商务创业平台的搭建研究,TP311.52
  8. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  9. 攀枝花学院人事管理信息系统的设计与实现,TP311.52
  10. 社区WebGIS原型系统设计与实现,P208
  11. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  12. 潍坊烟草创新新项目信息管理系统,TP311.52
  13. 基于SaaS和SOA的ERP系统关键问题的研究,TP315
  14. 基于语义Web的信息检索技术研究,TP391.3
  15. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  16. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  17. 基于SSH框架下的软件辅助开发平台的研究与实现,TP311.52
  18. 基于.NET的在线考试系统的设计与实现,TP311.52
  19. 基于倒排索引的压缩算法性能研究,TP391.3
  20. 一个改进的中文分词算法及其在Lucene中的应用,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com