学位论文 > 优秀研究生学位论文题录展示
基于Web数据挖掘的搜索引擎设计与实现
作 者: 王磊
导 师: 王亚弟
学 校: 解放军信息工程大学
专 业: 计算机技术
关键词: Web数据挖掘 搜索引擎 智能搜索引擎 语义Web 网络蜘蛛
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 200次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的快速发展,特别是网络技术的飞速进步,网络已成为全球最大的分布式信息知识库。一方面这为信息资源的共建共享提供了一个良好的平台,但是另外一方面又大幅度地提升了信息检索和知识获取的成本,使得信息查询和索取越来越难,出现了“富数据,穷信息”、“信息迷航”等问题。Web数据挖掘技术应运而生。本文首先简要介绍了Web数据挖掘的基本概念、分类和方法,以及Web数据挖掘的具体过程和相关理论体系。然后针对目前Web数据挖掘的一个重要的应用搜索引擎技术作了系统的阐述,搜索引擎的出现可以帮助用户在网络上方便的查找自己需要的信息。针对目前搜索引擎存在的不足,充分研究了搜索引擎的原理,给出了具有个性化、主动性服务的智能型搜索引擎的发展方向,并对其进行了理论研究分析和具体设计,通过对传统搜索引擎现状和发展趋势的研究,研究并设计了智能搜索的总体结构,对搜索引擎的界面重新设计。在信息检索模块中加入基于Web语义的检索技术,加强了语义理解,人机交互的能力。对于返回结果作聚类处理,使返回的结果信息更加适合用户的查询需求。并且在搜索引擎的设计中,加入用户兴趣的概念,通过对用户兴趣的记录挖掘用户的历史信息,以此发现用户的兴趣,对这些结果信息赋予较大权值,在返回聚类时优先考虑输出,通过搜索引擎在本单位的试运行,基本上可以满足日常工作的数据查询的需求,不仅为本单位节省了一部分的人力和财力,还为单位创造了经济效益。本文的研究和探索为进一步研究智能搜索引擎技术,开发高质量的网络检索工具提供了良好的开端
|
全文目录
摘要 7-8 ABSTRACT 8-9 第一章 绪论 9-15 1.1 研究背景 9-10 1.2 国内外发展的现状 10-12 1.3 论文的研究内容 12 1.4 论文的结构安排 12-15 第二章 Web 数据挖掘综述 15-23 2.1 Web 数据挖掘概念 15 2.2 Web 数据挖掘的分类 15-19 2.2.1 Web 结构挖掘 16 2.2.2 Web 内容挖掘 16-17 2.2.3 Web 日志挖掘 17-19 2.3 Web 数据挖掘难点 19 2.4 Web 数据挖掘的方法 19-20 2.5 Web 数据挖掘的一般流程 20-21 2.6 本章小结 21-23 第三章 搜索引擎的研究 23-41 3.1 搜索引擎综述 23-25 3.1.1 搜索引擎的发展历程 23-24 3.1.2 搜索引擎的分类 24-25 3.1.3 搜索引擎的发展趋势 25 3.2 搜索引擎的工作原理 25-28 3.2.1 信息采集器 26 3.2.2 分析索引器 26-27 3.2.3 检索器 27 3.2.4 查询接口 27 3.2.5 挖掘器 27-28 3.3 搜索引擎的关键技术 28-33 3.3.1 网络机器人(Robot 或Spider ) 28-30 3.3.2 网页内容分析 30 3.3.3 索引数据库 30-32 3.3.4 查询结果的组织 32-33 3.4 搜索引擎评价指标 33-34 3.5 智能搜索引擎的框架结构 34-37 3.5.1 主动搜索模块 35 3.5.2 元搜索模块 35-36 3.5.3 元搜索代理 36 3.5.4 信息过滤 36 3.5.5 网页生成 36-37 3.5.6 信息处理模块 37 3.6 智能搜索引擎与传统的搜索引擎的比较 37-38 3.6.1 网络蜘蛛的智能化 37-38 3.6.2 自适应用户的能力 38 3.6.3 搜索引擎人机接口的智能化 38 3.7 Web 数据挖掘在搜索引擎中的应用 38-39 3.7.1 文档自动分类 38 3.7.2 自动文摘的形成 38-39 3.7.3 检索结果的联机聚类 39 3.7.4 查询结果的相关度排序 39 3.7.5 实现个性化的搜索引擎 39 3.8 本章小结 39-41 第四章 搜索引擎的设计 41-59 4.1 搜索引擎的整体框架模型设计 41-44 4.1.1 客户端 42-43 4.1.2 服务器端 43-44 4.2 用户兴趣度 44-49 4.2.1 用户兴趣模型 44-45 4.2.2 用户兴趣知识的获取 45-46 4.2.3 用户模型知识库 46-48 4.2.4 用户兴趣的维护 48-49 4.3 基于Web 的语义信息检索设计 49-54 4.3.1 语义Web 在检索中的作用 51 4.3.2 语义web 的网页标记语言 51-52 4.3.3 基于语义Web 搜索引擎的系统框架 52 4.3.4 本体的建立 52-54 4.3.5 基于语义W eb 搜索的过程 54 4.4 返回结果的聚类设计 54-57 4.4.1 获取Web 的搜索结果 55 4.4.2 提取Web 搜索结果属性关键词 55-56 4.4.3 用K - means 算法对结果进行聚类 56-57 4.5 本章小结 57-59 第五章 搜索引擎的实现 59-75 5.1 界面实现 59-64 5.1.1 主界面实现 59 5.1.2 用户登录界面与注册页面设计 59-60 5.1.3 四种查询模式设计 60-64 5.2 信息检索模块的实现 64-70 5.2.1 搜索引擎网络蜘蛛的实现 64-66 5.2.2 信息检索模块中分类思想 66-68 5.2.3 基于Web 语义的检索算法实现 68-70 5.3 返回模块的实现 70-73 5.3.1 返回模块的聚类算法 70-72 5.3.2 返回结果三种标签的实现 72-73 5.4 本章小结 73-75 第六章 总结 75-77 6.1 工作总结 75 6.2 进一步的工作及展望 75-77 参考文献 77-80 作者简历 80-81 致谢 81
|
相似论文
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于多层QoS本体模型的个性化服务选择机制研究,TP391.1
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于语义Web的信息检索技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|