学位论文 > 优秀研究生学位论文题录展示

智能化WEB信息搜索引擎的研究与实现

作 者: 李建平
导 师: 马瑞民
学 校: 大庆石油学院
专 业: 计算机应用技术
关键词: 网络机器人 搜索引擎 信息检索 元搜索 更新周期
分类号: TP393.09
类 型: 硕士论文
年 份: 2003年
下 载: 1520次
引 用: 1次
阅 读: 论文下载
 

内容摘要


Internet上的信息庞杂且分散,搜索引擎系统越来越成为人们网上冲浪和获取信息的必要工具。搜索引擎,是指在Internet中主动搜索信息并能自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成本地数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。 目前,Internet中已经存在着许多搜索引擎系统,但是在功能上和性能上它们都存在着一些缺陷,尤其是查全率和查准率。研究搜索引擎技术开发新的检索工具以帮助人们在网上方便地找到想要的准确信息是目前亟待解决的问题。 文中对搜索引擎理论和技术进行概述,对网页特点作了分析和研究,比较分析了已经存在的各种搜索引擎系统,并在此基础上实现了两种类型的搜索引擎系统:基于目录的搜索引擎系统和基于机器人的综合式搜索引擎系统,这两种类型的系统相互联系、相互补充形成了一套智能化Web信息搜索引擎系统。 目前,该系统已经能够实验性运行且效果良好,达到了预期的学习和实践的目的,为进一步研究搜索引擎技术并开发搜索引擎系统奠定了基础。

全文目录


中文摘要  3-4
英文摘要  4-5
目录  5-7
前言  7-15
第一章 搜索引擎系统概述  15-26
  1.1 搜索引擎的定义  15
  1.2 搜索引擎的历史  15-16
  1.3 搜索引擎的分类  16-18
    1.3.1 按搜索引擎索引信息的范围分类  16
    1.3.2 按搜索引擎索引、检索信息的方式分类  16-17
    1.3.3 按搜索引擎索引方法分类  17-18
  1.4 搜索引擎的评价标准  18-22
    1.4.1 搜索引擎收录信息的范围  18-19
    1.4.2 反馈的信息量及内容的准确性  19
    1.4.3 反馈的查询结果错误率  19-20
    1.4.4 报道与内容更新速度  20
    1.4.5 搜索引擎的检索性能  20-21
    1.4.6 搜索引擎的响应时间  21
    1.4.7 检索界面友好性  21
    1.4.8 精品推荐  21
    1.4.9 与其它搜索引擎的友情链接  21-22
    1.4.10 搜索引擎的系统性能  22
  1.5 国内外搜索引擎的比较研究  22-25
    1.5.1 国外搜索引擎的比较研究  22-23
    1.5.2 国内搜索引擎的比较研究  23-25
  1.6 现有搜索引擎的缺陷  25-26
第二章 搜索引擎系统原理  26-33
  2.1 WWW的信息表示及其结构模型  26-27
  2.2 WWW上的信息获取过程  27-28
  2.3 基于目录搜索引擎的原理  28-29
  2.4 元搜索引擎的原理  29-31
    2.4.1 什么是元搜索引擎  29-30
    2.4.2 元搜索引擎的原理  30
    2.4.3 元搜索引擎的分类  30-31
    2.4.4 元搜索引擎与传统搜索引擎的区别  31
    2.4.5 常用的元搜索引擎  31
  2.5 搜索引擎的通用框架  31-33
第三章 系统总体设计  33-40
  3.1 基于目录的搜索引擎系统  33-36
    3.1.1 可行性研究  33-34
    3.1.2 需求分析  34-35
    3.1.3 数据库设计  35-36
  3.2 基于机器人的综合式搜索引擎  36-40
    3.2.1 系统总体结构设计  36
    3.2.2 信息采集与更新模块  36-37
    3.2.3 信息采集与更新模块  37-38
    3.2.4 信息的存储结构设计  38-39
    3.2.5 目录搜索引擎和机器人搜索引擎的联系  39-40
第四章 基于目录的搜索引擎系统的实现  40-49
  4.1 用户关键词查询模块  40-41
  4.2 网站无限分类查询模块  41-43
    4.2.1 触发器机制  41-42
    4.2.2 利用触发器实现网站的无限分类  42-43
  4.3 网站管理模块  43
  4.4 中文分词模块  43-49
    4.4.1 中文词的特点  43
    4.4.2 中文词的切分  43-44
    4.4.3 现有的中文词语切分方法  44-45
    4.4.4 本系统采用的分词方法  45-49
第五章 基于机器人的综合式搜索引擎系统的实现  49-57
  5.1 信息采集更新模块  49-53
    5.1.1 信息采集更新模块的构成  49
    5.1.2 起始URL列表的形成  49-51
    5.1.3 搜索引擎管理模块  51
    5.1.4 网络机器人  51-52
    5.1.5 网络机器人排斥标准  52-53
    5.1.6 网络机器人的分工与协作  53
    5.1.7 信息更新策略  53
  5.2 信息处理和查询  53-57
    5.2.1 文档相似度计算  53-54
    5.2.2 中文自动分词  54
    5.2.3 用户查询过程  54-55
    5.2.4 关键词相似性计算  55-56
    5.2.5 关键词管理模块  56-57
结束语  57-58
致谢  58-59
参考文献  59-61
附录 读研期间发表的论文  61

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于语义网络的智能搜索引擎研究,TP391.3
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  6. 分布式搜索引擎索引安全及缓存策略研究,TP333
  7. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  8. 跨语言文本分类的研究,TP391.1
  9. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  10. 教育培训行业互联网营销问题的研究,F49
  11. 搜索引擎侵权行为研究,D923
  12. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  13. 基于Agent元搜索引擎的个性化研究,TP391.3
  14. 基于点击的用户聚类的研究,TP311.13
  15. 英汉跨语言问答系统中的文档语义检索,TP391.1
  16. 基于Web的医学文献数据库的设计与实现,TP311.13
  17. 基于内容与链接的页面价值算法研究,TP393.092
  18. 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
  19. 基于移动搜索用户关联的信息检索研究,TP391.3
  20. 基于本体的语义查询扩展研究,TP391.3
  21. 基于P2P网络的分布式军事情报检索方法与原型系统研究,G354

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com