学位论文 > 优秀研究生学位论文题录展示
基于本体的专题性搜索引擎的研究与实现
作 者: 蒋子龙
导 师: 高曙
学 校: 武汉理工大学
专 业: 计算机应用技术
关键词: 本体 专题性搜索引擎 网络蜘蛛 中文分词 查询
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 168次
引 用: 4次
阅 读: 论文下载
内容摘要
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,难以满足专业用户如某一领域的科技工作人员对信息的需求,在这种情形下,专题性搜索引擎应运而生。然而目前流行的专题性搜索多在语法级层面进行实践、对查询语句仅进行机械性的匹配,效果不够理想。本课题—基于本体的专题性搜索引擎选择引入本体技术,通过对用户的查询输入进行一定的语义分析和处理,使得搜索引擎具备一定的智能性,对搜索结果在查全率和查准率上都有所提高。在信息采集方面,本论文给出了设计专题网络蜘蛛的方法:在对抓取下来的网页进行处理时,本文采取以词典分词为基础的正反向全切分算法进行中文分词;针对用户搜索关键字的模糊性及搜索返回结果的欠精确问题,本文应用本体通过相关概念之间的关联执行搜索,在返回用户查询结果时通过使用链接文档及相关的概念进行过滤及排序。本论文的主要工作如下:(1)阐述了搜索引擎的概念和发展现状,分析了搜索引擎的基本原理、构成。突出介绍专题性搜索引擎的优势。(2)设计出专题网络蜘蛛。给出了专题性网络蜘蛛程序设计的策略和模型,实现了Spider程序对Internet上的网页资源按照主题相关进行访问、抓取并保存到网页文件库。(3)运用倒排索引原理,实现了对网页文件的索引。在索引处理过程中,对网页文本库中的网页文件进行初步分析,滤去无效内容,再利用以词典分词为基础的正反向全切分算法对正文进行中文分词处理,最后提取文档特征信息,建立倒排索引文件。(4)设计出鞋业领域的本体库。查阅鞋业领域知识,在专业人士的帮助下确定领域核心概念,按照本体构建方法和规则,利用prot(?)g(?)工具开发出鞋业领域的本体知识库。(5)设计出基于本体的查询器。在用户查询部分,根据用户输入的关键词,先利用以词典分词为基础的正反向全切分算法进行分词处理,提取出初步关键词;将初步关键词与本体库中的概念实例进行匹配、推理,得出标准关键词;再进入索引库进行搜索查找,对查询结果按网页与查询条件的相关度排序显示给用户。(6)对基于本体的专题性搜索引擎系统进行了总体上的实现,针对一些例子进行了测试,并对结果做出了分析。基于上述对本文工作内容的总结,本文的特色在于:(1)结合鞋业领域的特点,利用prot(?)g(?)本体建模工具开发出适合鞋业领域的本体库,对鞋业领域的本体建模做出了有益的探索。(2)根据设计的页面相关性判断策略,开发出有自己特色的Spider程序,对专题性网络蜘蛛的设计做出了一次有意义的实践。(3)目前专题性搜索引擎的设计多停留在语法级别的应用上,本论文设计实现的基于本体的专题性搜索引擎系统是一次语义级的探索,对类似系统的开发有借鉴意义。
|
全文目录
摘要 4-6 Abstract 6-11 第1章 绪论 11-17 1.1 引言 11 1.2 课题研究背景 11-12 1.3 国内外研究现状与分析 12-15 1.3.1 国外研究现状 12-13 1.3.2 国内研究现状 13-15 1.4 论文研究内容和研究意义 15-17 1.4.1 研究内容 15 1.4.2 研究意义 15-16 1.4.3 论文组织结构 16-17 第2章 搜索引擎相关理论和技术 17-30 2.1 搜索引擎概述 17 2.2 搜索引擎的诞生与发展 17-19 2.3 搜索引擎的分类 19-21 2.4 搜索引擎的原理与构成 21-22 2.5 专题性搜索引擎的出现 22-23 2.6 专题性搜索引擎的优点 23-24 2.7 通用网络蜘蛛与专题网络蜘蛛 24-28 2.8 几种专题性搜索引擎的比较 28-29 2.9 本章小结 29-30 第3章 本体论研究概况 30-47 3.1 本体论及相关概念 30-33 3.1.1 Ontology的概念 30-31 3.1.2 Ontology的建模元语 31-32 3.1.3 Ontology及其分类 32-33 3.2 本体描述语言—OWL 33-38 3.2.1 OWL及其子语言 35 3.2.2 一个用OWL描述Ontology的示例 35-38 3.3 本体构建 38-46 3.3.1 本体构建的规则 38-39 3.3.2 本体构建的方法 39-43 3.3.3 本体构建的工具 43-46 3.4 本章小结 46-47 第4章 基于本体的专题性搜索引擎系统设计 47-78 4.1 系统功能和目标 47 4.2 系统设计模型 47-49 4.3 专题性网络蜘蛛模块 49-57 4.3.1 网络蜘蛛设计策略 49-50 4.3.2 网络蜘蛛设计步骤 50-53 4.3.3 网络蜘蛛设计规范 53-55 4.3.4 结构模型 55 4.3.5 设计实现 55-57 4.4 索引处理模块 57-66 4.4.1 索引设计流程 58-59 4.4.2 索引结构模型 59-61 4.4.3 中文信息处理 61-64 4.4.5 倒排索引原理 64-65 4.4.6 索引分词器的设计与实现 65-66 4.5 本体推理模块 66-72 4.5.1 领域本体库构建步骤 66-67 4.5.2 本体存储解决方案 67-68 4.5.4 鞋业领域本体库的开发 68-72 4.6 客户端查询模块 72-77 4.6.1 查询基本流程 72-73 4.6.2 查询模块结构设计 73-75 4.6.4 结果相关性排序 75 4.6.5 查询接口的实现 75-77 4.7 本章小结 77-78 第5章 实验及结果分析 78-83 5.1 实验平台及开发环境 78 5.2 实例验证 78-82 5.3 结果分析 82 5.4 本章小结 82-83 第6章 总结与展望 83-85 6.1 论文工作总结 83-84 6.2 展望 84-85 参考文献 85-88 致谢 88-89 攻读硕士学位期间发表的论文及参加的科研项目 89
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 海量多数据库集成系统的查询处理研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 动态环境下移动对象导航系统相关技术的研究,TP301.6
- 哲学思想在指导中学数学教学中的作用,G633.6
- 边防军分区信息管理系统设计与实现,TP311.52
- 一种自适应选择处理节点的时空查询算法,TN929.5
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 网络搜索引擎的相关技术研究,G354
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 面向领域的数据库问答系统关键技术研究,TP311.13
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 矿区多源遥感影像集成管理系统的设计与实现,P208
- 基于本体的食品投诉文档文本聚类研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|