学位论文 > 优秀研究生学位论文题录展示

全功能检索系统搜索引擎设计

作 者: 陈再兴
导 师: 王大震
学 校: 湖北工业大学
专 业: 计算机应用技术
关键词: web搜索服务 网络蜘蛛 隐马尔可夫模型 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 123次
引 用: 0次
阅 读: 论文下载
 

内容摘要


当今的社会已经由信息主宰,用户对于计算机的应用提出了更多的需求。用户对于事务处理的电子化与自动化,信息管理自动化系统,web搜索引擎的需求越来越大,在这个背景下,搜索服务模块的开发也越来越成为信息系统软件开发的重点。本文首先具体介绍web搜索技术,软件系统开发方法,系统模型设计,web搜索服务架构,web挖掘算法技术等。其中,web搜索服务开发方法中,着重介绍了常用的开发模型的开发过程和步骤。从web搜索服务设计角度,介绍了搜索引擎的基本概念,网络架构设计的方法和原则,以及web搜索服务的工作原理和架构设计等等。重点介绍了Spider技术,描述了网络蜘蛛的特性,网络蜘蛛的模型和搜索技术的解决方案。结合网络爬行器的基本功能,阐述了网络蜘蛛抓取策略,并分析了网络蜘蛛两种不同策略的效率,完成了索引建立模块和关键词检索主要功能模块的设计和开发。引入基于隐马尔可夫模型(HMM)的词性标注、交集型歧义排歧并实现对纯文本文件进行分词,然后对分词后的文件建立词索引和字索引。

全文目录


摘要  4-5
ABSTRACT  5-10
第1章 引言  10-17
  1.1 本课题的研究背景和应用前景  10
  1.2 信息检索系统和WEB 搜索的技术背景  10-11
  1.3 搜索引擎的发展趋势  11-15
    1.3.1 信息抽取,优化排序  11-12
    1.3.2 基于视觉网块分析  12
    1.3.3 网页库内容分类  12
    1.3.4 潜在相关性  12
    1.3.5 网页结构化信息抽取类技术,网页上文本内容的相关性分析  12
    1.3.6 自然语言处理、简单的语意语法分析  12-13
    1.3.7 重复识别  13
    1.3.8 行业优化  13
    1.3.9 相关搜索  13
    1.3.10 跟踪互联网变化,细节上的优化,博弈  13-14
    1.3.11 存在的问题  14-15
  1.4 本课题的主要研究目标  15-16
  1.5 本章小结  16-17
第2章 信息检索系统和WEB 搜索技术介绍  17-24
  2.1 基本概念  17-18
    2.1.1 Web 搜索功能  17
    2.1.2 搜索引擎  17-18
  2.2 搜索引擎的主要指标及其分析  18-19
    2.2.1 搜索引擎的精度  19
    2.2.2 搜索引擎受欢迎程度  19
  2.3 搜索引擎系统的典型体系结构  19-23
    2.3.1 信息的搜集  20
    2.3.2 附加信息  20-21
    2.3.3 分析器  21
    2.3.4 数据库  21-23
  2.4 本章小结  23-24
第3章 网络爬行器总体设计原则  24-28
  3.1 网络爬行器的基本概念  24
  3.2 网络爬行器设计方案  24-27
    3.2.1 网络爬行器基本功能  24-25
    3.2.2 网络爬行器抓取网页策略  25
    3.2.3 页面中的附加信息  25-26
    3.2.4 两种策略算法分析  26-27
  3.3 本章小结  27-28
第4章 海量数据关键词检索子系统设计  28-41
  4.1 总体设计  28-30
    4.1.1 主要目标  28
    4.1.2 运行环境  28
    4.1.3 基本设计概念和处理流程  28-30
      4.1.3.1 建立索引模块  28-29
      4.1.3.2 关键词检索模块  29-30
  4.2 接口设计  30
    4.2.1 用户接口  30
    4.2.2 外部接口  30
  4.3 模块设计  30-34
    4.3.1 HTML 转化TXT 文本文件  30
    4.3.2 文本分词  30-32
      4.3.2.1 三词块法  30-31
      4.3.2.2 流程图  31-32
    4.3.3 词典的设计  32-34
      4.3.3.1 分词词典结构设计  32-33
      4.3.3.2 分词模块算法  33-34
  4.4 歧义词处理模块的分析与设计  34-36
    4.4.1 歧义字段研究现状  34-35
    4.4.2 歧义字段产生的原因  35
    4.4.3 歧义字段的识别方法  35-36
      4.4.3.1 交集型歧义字段的识别方法  35
      4.4.3.2 组合型歧义字段的识别方法  35-36
  4.5 隐马尔可夫模型  36-38
    4.5.1 隐马尔可夫模型介绍  36
    4.5.2 隐马尔可夫模型的参数获取  36-37
    4.5.3 平滑处理技术  37
    4.5.4 基于隐马尔可夫模型的标注排歧算法  37-38
  4.6 倒排文件  38-39
    4.6.1 词汇表的构建  38-39
    4.6.2 记录文件构建  39
    4.6.3 倒排文件的压缩  39
  4.7 单关键词索引  39
  4.8 检索结果处理  39-40
  4.9 本章小结  40-41
第5章 海量数据关键词检索子系统的实现  41-59
  5.1 总体设计  41-42
    5.1.1 设计思路  41
    5.1.2 模块划分  41-42
  5.2 子模块详细设计  42-45
    5.2.1 分词子模块  42-45
      5.2.1.1 类设计  42-43
      5.2.1.2 构造函数与析构函数  43-45
  5.3 更新词索引、更新字索引、单关键词检索子模块  45-57
    5.3.1 数据结构设计  45-47
      5.3.1.1 字索引中的索引项结构  45
      5.3.1.2 词索引中的索引项结构  45-46
      5.3.1.3 检索汉字(词)的详细信息结构  46-47
    5.3.2 类设计  47-57
      5.3.2.1 CParse 类  47-50
      5.3.2.2 CIndex 类  50-57
  5.4 处理结果处理子模块  57-58
  5.5 本章小结  58-59
第6章 总结  59-61
  6.1 本课题主要的研究工作  59
  6.2 未来工作展望  59-61
参考文献  61-64
致谢  64-65
附录  65

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 分布式搜索引擎索引安全及缓存策略研究,TP333
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 教育培训行业互联网营销问题的研究,F49
  8. 搜索引擎侵权行为研究,D923
  9. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  10. 基于Agent元搜索引擎的个性化研究,TP391.3
  11. 论搜索引擎竞价排名的法律规制,D923.43
  12. 搜索引擎悖论解读,G254
  13. 基于搜索引擎网页排序算法研究,TP391.3
  14. 网络下载侵权分析,D923.41
  15. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  16. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  17. 基于领域知识的Deep Web接口发现研究,TP393.09
  18. 基于对等网络的搜索引擎关键技术研究,TP391.3
  19. 基于本体的智能答疑系统研究与实现,TP311.52
  20. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  21. 对搜索引擎扩充语义信息功能方法研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com