学位论文 > 优秀研究生学位论文题录展示
全功能检索系统搜索引擎设计
作 者: 陈再兴
导 师: 王大震
学 校: 湖北工业大学
专 业: 计算机应用技术
关键词: web搜索服务 网络蜘蛛 隐马尔可夫模型 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 123次
引 用: 0次
阅 读: 论文下载
内容摘要
当今的社会已经由信息主宰,用户对于计算机的应用提出了更多的需求。用户对于事务处理的电子化与自动化,信息管理自动化系统,web搜索引擎的需求越来越大,在这个背景下,搜索服务模块的开发也越来越成为信息系统软件开发的重点。本文首先具体介绍web搜索技术,软件系统开发方法,系统模型设计,web搜索服务架构,web挖掘算法技术等。其中,web搜索服务开发方法中,着重介绍了常用的开发模型的开发过程和步骤。从web搜索服务设计角度,介绍了搜索引擎的基本概念,网络架构设计的方法和原则,以及web搜索服务的工作原理和架构设计等等。重点介绍了Spider技术,描述了网络蜘蛛的特性,网络蜘蛛的模型和搜索技术的解决方案。结合网络爬行器的基本功能,阐述了网络蜘蛛抓取策略,并分析了网络蜘蛛两种不同策略的效率,完成了索引建立模块和关键词检索主要功能模块的设计和开发。引入基于隐马尔可夫模型(HMM)的词性标注、交集型歧义排歧并实现对纯文本文件进行分词,然后对分词后的文件建立词索引和字索引。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第1章 引言 10-17 1.1 本课题的研究背景和应用前景 10 1.2 信息检索系统和WEB 搜索的技术背景 10-11 1.3 搜索引擎的发展趋势 11-15 1.3.1 信息抽取,优化排序 11-12 1.3.2 基于视觉网块分析 12 1.3.3 网页库内容分类 12 1.3.4 潜在相关性 12 1.3.5 网页结构化信息抽取类技术,网页上文本内容的相关性分析 12 1.3.6 自然语言处理、简单的语意语法分析 12-13 1.3.7 重复识别 13 1.3.8 行业优化 13 1.3.9 相关搜索 13 1.3.10 跟踪互联网变化,细节上的优化,博弈 13-14 1.3.11 存在的问题 14-15 1.4 本课题的主要研究目标 15-16 1.5 本章小结 16-17 第2章 信息检索系统和WEB 搜索技术介绍 17-24 2.1 基本概念 17-18 2.1.1 Web 搜索功能 17 2.1.2 搜索引擎 17-18 2.2 搜索引擎的主要指标及其分析 18-19 2.2.1 搜索引擎的精度 19 2.2.2 搜索引擎受欢迎程度 19 2.3 搜索引擎系统的典型体系结构 19-23 2.3.1 信息的搜集 20 2.3.2 附加信息 20-21 2.3.3 分析器 21 2.3.4 数据库 21-23 2.4 本章小结 23-24 第3章 网络爬行器总体设计原则 24-28 3.1 网络爬行器的基本概念 24 3.2 网络爬行器设计方案 24-27 3.2.1 网络爬行器基本功能 24-25 3.2.2 网络爬行器抓取网页策略 25 3.2.3 页面中的附加信息 25-26 3.2.4 两种策略算法分析 26-27 3.3 本章小结 27-28 第4章 海量数据关键词检索子系统设计 28-41 4.1 总体设计 28-30 4.1.1 主要目标 28 4.1.2 运行环境 28 4.1.3 基本设计概念和处理流程 28-30 4.1.3.1 建立索引模块 28-29 4.1.3.2 关键词检索模块 29-30 4.2 接口设计 30 4.2.1 用户接口 30 4.2.2 外部接口 30 4.3 模块设计 30-34 4.3.1 HTML 转化TXT 文本文件 30 4.3.2 文本分词 30-32 4.3.2.1 三词块法 30-31 4.3.2.2 流程图 31-32 4.3.3 词典的设计 32-34 4.3.3.1 分词词典结构设计 32-33 4.3.3.2 分词模块算法 33-34 4.4 歧义词处理模块的分析与设计 34-36 4.4.1 歧义字段研究现状 34-35 4.4.2 歧义字段产生的原因 35 4.4.3 歧义字段的识别方法 35-36 4.4.3.1 交集型歧义字段的识别方法 35 4.4.3.2 组合型歧义字段的识别方法 35-36 4.5 隐马尔可夫模型 36-38 4.5.1 隐马尔可夫模型介绍 36 4.5.2 隐马尔可夫模型的参数获取 36-37 4.5.3 平滑处理技术 37 4.5.4 基于隐马尔可夫模型的标注排歧算法 37-38 4.6 倒排文件 38-39 4.6.1 词汇表的构建 38-39 4.6.2 记录文件构建 39 4.6.3 倒排文件的压缩 39 4.7 单关键词索引 39 4.8 检索结果处理 39-40 4.9 本章小结 40-41 第5章 海量数据关键词检索子系统的实现 41-59 5.1 总体设计 41-42 5.1.1 设计思路 41 5.1.2 模块划分 41-42 5.2 子模块详细设计 42-45 5.2.1 分词子模块 42-45 5.2.1.1 类设计 42-43 5.2.1.2 构造函数与析构函数 43-45 5.3 更新词索引、更新字索引、单关键词检索子模块 45-57 5.3.1 数据结构设计 45-47 5.3.1.1 字索引中的索引项结构 45 5.3.1.2 词索引中的索引项结构 45-46 5.3.1.3 检索汉字(词)的详细信息结构 46-47 5.3.2 类设计 47-57 5.3.2.1 CParse 类 47-50 5.3.2.2 CIndex 类 50-57 5.4 处理结果处理子模块 57-58 5.5 本章小结 58-59 第6章 总结 59-61 6.1 本课题主要的研究工作 59 6.2 未来工作展望 59-61 参考文献 61-64 致谢 64-65 附录 65
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
- 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
- 对搜索引擎扩充语义信息功能方法研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|