学位论文 > 优秀研究生学位论文题录展示
搜索引擎的研究与设计
作 者: 杨铠懋
导 师: 杨义先;辛阳
学 校: 电子科技大学
专 业: 软件工程
关键词: 搜索引擎 Web数据挖掘 信息检索
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 151次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网信息量成倍地增长,人们在浩瀚的网络中搜索出满足自己需求的信息就犹如大海捞针。而搜索引擎的出现使得这一难题基本得到解决。搜索引擎的作用在于通过搜集并整合来自互联网络的内容,从而帮助人们找到自己需要的资讯。搜索引擎的出现,对人们的工作生活影响巨大。人们足不出户就可以搜集到大量的有用信息,从而解决了因信息不对称产生的负面影响。而且,比起传统的信息搜集方式,有了搜索引擎的帮助,信息搜集的成本大幅减少。搜索引擎在整个互联网中搜集数据,然后对这些数据进行预处理,最后返回满足用户搜索条件的相关信息。它所涉及的计算机领域众多,有信息检索、人工智能、数据挖掘、分布式计算、数据库技术等,是一门交叉领域,其构建过程无论在软件开发还是硬件集群方面,都是一项难度较大的系统工程。本文主要进行了以下几方面的工作:首先,本文研究分析搜索引擎技术原理与实现状况。重点研究了搜索引擎实现所需要的信息检索理论支撑,包括检索的相关度模型:布尔模型、向量空间模型以及统计语言模型。而本文对于检索相关度所采用的理论模型是向量空间模型。其次,对搜索引擎系统进行需求分析与概要设计,既明确了系统应具有的功能参数与性能指标,又对系统的设计架构进行了充分的研究与论证。最后,在完成架构设计与技术选型之后,通过使用Lucene、Nutch的应用编程接口,对搜索引擎进行开发。并对系统的完善提出了解决方案。本文出于对搜索引擎进行研究的目的,构建了能够进行站内搜索以及互联网搜索的小型搜索引擎,能够满足中小型网站的业务需要。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 绪论 10-13 1.1 研究背景及意义 10-11 1.1.1 互联网络信息特点 10 1.1.2 目前搜索引擎存在的问题 10-11 1.2 本文的主要工作 11 1.3 论文的组织结构 11-13 第二章 搜索引擎技术综述 13-24 2.1 信息检索综述 13-19 2.1.1 信息检索的应用 13-14 2.1.2 信息检索的核心议题 14-15 2.1.3 信息检索的重要模型 15-19 2.2 搜索引擎发展历史 19-20 2.2.1 萌芽时期 19 2.2.2 起步时期 19 2.2.3 快速发展时期 19-20 2.3 搜索引擎组成 20-21 2.3.1 爬虫程序 20 2.3.2 索引器 20-21 2.3.3 检索器 21 2.3.4 查询处理器 21 2.4 搜索引擎分类 21-22 2.4.1 全文搜索引擎 21-22 2.4.2 目录搜素引擎 22 2.4.3 元搜索引擎 22 2.5 本章小结 22-24 第三章 需求分析与概要设计 24-40 3.1 系统需求分析与建模 24-27 3.1.1 系统功能性需求 24-25 3.1.2 系统非功能性需求 25-26 3.1.3 系统模型 26-27 3.2 系统总体架构设计 27-29 3.2.1 功能设计 27-28 3.2.2 性能设计 28 3.2.3 系统环境 28-29 3.3 系统核心技术 29-39 3.3.1 倒排索引 29-32 3.3.2 内容爬取 32-36 3.3.3 内容处理 36-38 3.3.4 文档解析 38 3.3.5 结果排序 38-39 3.4 本章小结 39-40 第四章 详细设计与编码 40-64 4.1 开发环境配置 40-41 4.2 索引模块设计 41-55 4.2.1 详细索引过程 41-46 4.2.2 段合并过程 46-51 4.2.3 主要过程代码 51-55 4.3 爬虫模块设计 55-57 4.3.1 爬虫活动过程 55-56 4.3.2 主要代码 56-57 4.4 搜索模块设计 57-61 4.4.1 搜索详细过程 57-59 4.4.2 主要代码 59-61 4.5 文档解析与分词器模块设计 61 4.6 工具模块设计 61-63 4.7 本章小结 63-64 第五章 系统测试与运行 64-75 5.1 测试爬虫运行状态 64-65 5.2 测试爬取与索引 65-67 5.3 测试搜索 67-73 5.3.1 测试用例 68-73 5.4 系统改进方案 73-74 5.5 本章小结 74-75 第六章 总结与展望 75-76 6.1 本文总结 75 6.2 对搜索引擎未来的展望 75-76 致谢 76-77 参考文献 77-79
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 网络搜索引擎的相关技术研究,G354
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 排序学习损失函数的研究,TP181
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 基于点击的用户聚类的研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|