学位论文 > 优秀研究生学位论文题录展示

搜索引擎的研究与设计

作 者: 杨铠懋
导 师: 杨义先;辛阳
学 校: 电子科技大学
专 业: 软件工程
关键词: 搜索引擎 Web数据挖掘 信息检索
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 151次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网信息量成倍地增长,人们在浩瀚的网络中搜索出满足自己需求的信息就犹如大海捞针。而搜索引擎的出现使得这一难题基本得到解决。搜索引擎的作用在于通过搜集并整合来自互联网络的内容,从而帮助人们找到自己需要的资讯。搜索引擎的出现,对人们的工作生活影响巨大。人们足不出户就可以搜集到大量的有用信息,从而解决了因信息不对称产生的负面影响。而且,比起传统的信息搜集方式,有了搜索引擎的帮助,信息搜集的成本大幅减少。搜索引擎在整个互联网中搜集数据,然后对这些数据进行预处理,最后返回满足用户搜索条件的相关信息。它所涉及的计算机领域众多,有信息检索、人工智能、数据挖掘、分布式计算、数据库技术等,是一门交叉领域,其构建过程无论在软件开发还是硬件集群方面,都是一项难度较大的系统工程。本文主要进行了以下几方面的工作:首先,本文研究分析搜索引擎技术原理与实现状况。重点研究了搜索引擎实现所需要的信息检索理论支撑,包括检索的相关度模型:布尔模型、向量空间模型以及统计语言模型。而本文对于检索相关度所采用的理论模型是向量空间模型。其次,对搜索引擎系统进行需求分析与概要设计,既明确了系统应具有的功能参数与性能指标,又对系统的设计架构进行了充分的研究与论证。最后,在完成架构设计与技术选型之后,通过使用Lucene、Nutch的应用编程接口,对搜索引擎进行开发。并对系统的完善提出了解决方案。本文出于对搜索引擎进行研究的目的,构建了能够进行站内搜索以及互联网搜索的小型搜索引擎,能够满足中小型网站的业务需要。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-13
  1.1 研究背景及意义  10-11
    1.1.1 互联网络信息特点  10
    1.1.2 目前搜索引擎存在的问题  10-11
  1.2 本文的主要工作  11
  1.3 论文的组织结构  11-13
第二章 搜索引擎技术综述  13-24
  2.1 信息检索综述  13-19
    2.1.1 信息检索的应用  13-14
    2.1.2 信息检索的核心议题  14-15
    2.1.3 信息检索的重要模型  15-19
  2.2 搜索引擎发展历史  19-20
    2.2.1 萌芽时期  19
    2.2.2 起步时期  19
    2.2.3 快速发展时期  19-20
  2.3 搜索引擎组成  20-21
    2.3.1 爬虫程序  20
    2.3.2 索引器  20-21
    2.3.3 检索器  21
    2.3.4 查询处理器  21
  2.4 搜索引擎分类  21-22
    2.4.1 全文搜索引擎  21-22
    2.4.2 目录搜素引擎  22
    2.4.3 元搜索引擎  22
  2.5 本章小结  22-24
第三章 需求分析与概要设计  24-40
  3.1 系统需求分析与建模  24-27
    3.1.1 系统功能性需求  24-25
    3.1.2 系统非功能性需求  25-26
    3.1.3 系统模型  26-27
  3.2 系统总体架构设计  27-29
    3.2.1 功能设计  27-28
    3.2.2 性能设计  28
    3.2.3 系统环境  28-29
  3.3 系统核心技术  29-39
    3.3.1 倒排索引  29-32
    3.3.2 内容爬取  32-36
    3.3.3 内容处理  36-38
    3.3.4 文档解析  38
    3.3.5 结果排序  38-39
  3.4 本章小结  39-40
第四章 详细设计与编码  40-64
  4.1 开发环境配置  40-41
  4.2 索引模块设计  41-55
    4.2.1 详细索引过程  41-46
    4.2.2 段合并过程  46-51
    4.2.3 主要过程代码  51-55
  4.3 爬虫模块设计  55-57
    4.3.1 爬虫活动过程  55-56
    4.3.2 主要代码  56-57
  4.4 搜索模块设计  57-61
    4.4.1 搜索详细过程  57-59
    4.4.2 主要代码  59-61
  4.5 文档解析与分词器模块设计  61
  4.6 工具模块设计  61-63
  4.7 本章小结  63-64
第五章 系统测试与运行  64-75
  5.1 测试爬虫运行状态  64-65
  5.2 测试爬取与索引  65-67
  5.3 测试搜索  67-73
    5.3.1 测试用例  68-73
  5.4 系统改进方案  73-74
  5.5 本章小结  74-75
第六章 总结与展望  75-76
  6.1 本文总结  75
  6.2 对搜索引擎未来的展望  75-76
致谢  76-77
参考文献  77-79

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 面向海量邮件的检索系统研究与实现,TP393.098
  3. 网络搜索引擎的相关技术研究,G354
  4. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  7. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  8. 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
  9. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  10. 分布式搜索引擎索引安全及缓存策略研究,TP333
  11. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  12. 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
  13. 基于稀疏非负矩阵分解的图像检索,TP391.41
  14. 跨语言文本分类的研究,TP391.1
  15. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  16. 排序学习损失函数的研究,TP181
  17. 教育培训行业互联网营销问题的研究,F49
  18. 搜索引擎侵权行为研究,D923
  19. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  20. 基于Agent元搜索引擎的个性化研究,TP391.3
  21. 基于点击的用户聚类的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com