学位论文 > 优秀研究生学位论文题录展示
基于Web搜索引擎系统的设计与实现
作 者: 连蒴
导 师: 叶德建
学 校: 复旦大学
专 业: 软件工程
关键词: 搜索引擎 Lucene Heritrix MVC
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 168次
引 用: 1次
阅 读: 论文下载
内容摘要
为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息,搜索引擎逐渐走进了人们的生活,“竹竹”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。然后,对“竹竹”搜索引擎系统进行需求分析,对系统进行总体设计,并对系统的各个功能模块进行详细的设计和实现,最后“竹竹”搜索引擎系统进行了测试。“竹竹”搜索引擎是基于Web的,面向笔记本电脑品牌的搜索引擎。系统的前端以MVC模式来实现,Spring做中间层,JDBC作后端来开发实现的。本系统分为三个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中;该模块使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,由于笔记本电脑的品牌名在现有词库中不存在,因此要建立其特有的词库文件,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中;该模块通过Lucene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。用户模块实现的主要功能是:用户模块是系统的用户接口;用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的品牌信息后,系统将在可以接受的时间内,返回用户所需的结果集;该模块通过DWR封装了AJAX技术,处理用户请求;通过Lucene的API来实现检索。
|
全文目录
摘要 4-5 ABSTRACT 5-6 第一章 绪论 6-15 1.1 选题背景 6-8 1.1.1 搜索引擎的发展历史 6-8 1.2 研究现状 8-10 1.2.1 搜索引擎的概念 8-9 1.2.2 搜索引擎的分类 9-10 1.3 本论文的研究内容 10 1.4 相关技术介绍 10-14 1.4.1 Heritrix 10-12 1.4.2 Lucene 12-14 1.5 论文章节结构 14-15 第二章 系统需求分析 15-21 2.1 系统功能需求 15 2.2 系统性能需求 15-21 2.2.1 抓取模块 16-18 2.2.2 处理模块 18-19 2.2.3 用户模块 19-21 第三章 系统总体设计 21-23 3.1 搜索引擎的工作原理 21 3.2 "竹竹"搜索引擎的总体架构设计 21-23 第四章 系统详细设计与实现 23-43 4.1 系统实现的总体逻辑 23 4.2 抓取模块 23-34 4.2.1 Heritrix子模块工作流程 23-25 4.2.2 运行Heritrix子模块 25-31 4.2.3 分析网页子模块 31-34 4.3 处理模块 34-41 4.3.1 解析网页子模块 34-36 4.3.2 创建词库子模块 36 4.3.3 生成持久化类子模块 36 4.3.4 创建Document子模块 36-40 4.3.5 存储数据子模块 40-41 4.4 用户模块 41-43 4.4.1 搜索页面 41-42 4.4.2 详细信息页面 42-43 第五章 系统测试 43-46 5.1 系统测试的分类 43-46 5.1.1 线下功能测试 43-45 5.1.2 线下性能测试 45 5.1.3 线上的功能测试 45 5.1.4 线上的性能测试 45-46 结论 46-47 参考文献 47-48 致谢 48-49
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于BP网络的元搜索引擎研究,TP391.3
- 基于SOA与工作流的OA系统的研究与实现,TP311.52
- 设计模式在银行支付系统中的应用研究,TP311.52
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于MVC的校园电子商务创业平台的搭建研究,TP311.52
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 攀枝花学院人事管理信息系统的设计与实现,TP311.52
- 社区WebGIS原型系统设计与实现,P208
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 潍坊烟草创新新项目信息管理系统,TP311.52
- 基于SaaS和SOA的ERP系统关键问题的研究,TP315
- 基于语义Web的信息检索技术研究,TP391.3
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于SSH框架下的软件辅助开发平台的研究与实现,TP311.52
- 基于.NET的在线考试系统的设计与实现,TP311.52
- 基于倒排索引的压缩算法性能研究,TP391.3
- 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|