学位论文 > 优秀研究生学位论文题录展示

基于Web数据挖掘的搜索引擎设计与实现

作 者: 王磊
导 师: 王亚弟
学 校: 解放军信息工程大学
专 业: 计算机技术
关键词: Web数据挖掘 搜索引擎 智能搜索引擎 语义Web 网络蜘蛛
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 200次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的快速发展,特别是网络技术的飞速进步,网络已成为全球最大的分布式信息知识库。一方面这为信息资源的共建共享提供了一个良好的平台,但是另外一方面又大幅度地提升了信息检索和知识获取的成本,使得信息查询和索取越来越难,出现了“富数据,穷信息”、“信息迷航”等问题。Web数据挖掘技术应运而生。本文首先简要介绍了Web数据挖掘的基本概念、分类和方法,以及Web数据挖掘的具体过程和相关理论体系。然后针对目前Web数据挖掘的一个重要的应用搜索引擎技术作了系统的阐述,搜索引擎的出现可以帮助用户在网络上方便的查找自己需要的信息。针对目前搜索引擎存在的不足,充分研究了搜索引擎的原理,给出了具有个性化、主动性服务的智能型搜索引擎的发展方向,并对其进行了理论研究分析和具体设计,通过对传统搜索引擎现状和发展趋势的研究,研究并设计了智能搜索的总体结构,对搜索引擎的界面重新设计。在信息检索模块中加入基于Web语义的检索技术,加强了语义理解,人机交互的能力。对于返回结果作聚类处理,使返回的结果信息更加适合用户的查询需求。并且在搜索引擎的设计中,加入用户兴趣的概念,通过对用户兴趣的记录挖掘用户的历史信息,以此发现用户的兴趣,对这些结果信息赋予较大权值,在返回聚类时优先考虑输出,通过搜索引擎在本单位的试运行,基本上可以满足日常工作的数据查询的需求,不仅为本单位节省了一部分的人力和财力,还为单位创造了经济效益。本文的研究和探索为进一步研究智能搜索引擎技术,开发高质量的网络检索工具提供了良好的开端

全文目录


摘要  7-8
ABSTRACT  8-9
第一章 绪论  9-15
  1.1 研究背景  9-10
  1.2 国内外发展的现状  10-12
  1.3 论文的研究内容  12
  1.4 论文的结构安排  12-15
第二章 Web 数据挖掘综述  15-23
  2.1 Web 数据挖掘概念  15
  2.2 Web 数据挖掘的分类  15-19
    2.2.1 Web 结构挖掘  16
    2.2.2 Web 内容挖掘  16-17
    2.2.3 Web 日志挖掘  17-19
  2.3 Web 数据挖掘难点  19
  2.4 Web 数据挖掘的方法  19-20
  2.5 Web 数据挖掘的一般流程  20-21
  2.6 本章小结  21-23
第三章 搜索引擎的研究  23-41
  3.1 搜索引擎综述  23-25
    3.1.1 搜索引擎的发展历程  23-24
    3.1.2 搜索引擎的分类  24-25
    3.1.3 搜索引擎的发展趋势  25
  3.2 搜索引擎的工作原理  25-28
    3.2.1 信息采集器  26
    3.2.2 分析索引器  26-27
    3.2.3 检索器  27
    3.2.4 查询接口  27
    3.2.5 挖掘器  27-28
  3.3 搜索引擎的关键技术  28-33
    3.3.1 网络机器人(Robot 或Spider )  28-30
    3.3.2 网页内容分析  30
    3.3.3 索引数据库  30-32
    3.3.4 查询结果的组织  32-33
  3.4 搜索引擎评价指标  33-34
  3.5 智能搜索引擎的框架结构  34-37
    3.5.1 主动搜索模块  35
    3.5.2 元搜索模块  35-36
    3.5.3 元搜索代理  36
    3.5.4 信息过滤  36
    3.5.5 网页生成  36-37
    3.5.6 信息处理模块  37
  3.6 智能搜索引擎与传统的搜索引擎的比较  37-38
    3.6.1 网络蜘蛛的智能化  37-38
    3.6.2 自适应用户的能力  38
    3.6.3 搜索引擎人机接口的智能化  38
  3.7 Web 数据挖掘在搜索引擎中的应用  38-39
    3.7.1 文档自动分类  38
    3.7.2 自动文摘的形成  38-39
    3.7.3 检索结果的联机聚类  39
    3.7.4 查询结果的相关度排序  39
    3.7.5 实现个性化的搜索引擎  39
  3.8 本章小结  39-41
第四章 搜索引擎的设计  41-59
  4.1 搜索引擎的整体框架模型设计  41-44
    4.1.1 客户端  42-43
    4.1.2 服务器端  43-44
  4.2 用户兴趣度  44-49
    4.2.1 用户兴趣模型  44-45
    4.2.2 用户兴趣知识的获取  45-46
    4.2.3 用户模型知识库  46-48
    4.2.4 用户兴趣的维护  48-49
  4.3 基于Web 的语义信息检索设计  49-54
    4.3.1 语义Web 在检索中的作用  51
    4.3.2 语义web 的网页标记语言  51-52
    4.3.3 基于语义Web 搜索引擎的系统框架  52
    4.3.4 本体的建立  52-54
    4.3.5 基于语义W eb 搜索的过程  54
  4.4 返回结果的聚类设计  54-57
    4.4.1 获取Web 的搜索结果  55
    4.4.2 提取Web 搜索结果属性关键词  55-56
    4.4.3 用K - means 算法对结果进行聚类  56-57
  4.5 本章小结  57-59
第五章 搜索引擎的实现  59-75
  5.1 界面实现  59-64
    5.1.1 主界面实现  59
    5.1.2 用户登录界面与注册页面设计  59-60
    5.1.3 四种查询模式设计  60-64
  5.2 信息检索模块的实现  64-70
    5.2.1 搜索引擎网络蜘蛛的实现  64-66
    5.2.2 信息检索模块中分类思想  66-68
    5.2.3 基于Web 语义的检索算法实现  68-70
  5.3 返回模块的实现  70-73
    5.3.1 返回模块的聚类算法  70-72
    5.3.2 返回结果三种标签的实现  72-73
  5.4 本章小结  73-75
第六章 总结  75-77
  6.1 工作总结  75
  6.2 进一步的工作及展望  75-77
参考文献  77-80
作者简历  80-81
致谢  81

相似论文

  1. 面向业务过程的服务动态组合方法研究,TP393.09
  2. 基于本体的语义检索研究,TP391.3
  3. 网络搜索引擎的相关技术研究,G354
  4. 基于语义网络的智能搜索引擎研究,TP391.3
  5. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  6. 关系数据库到RDF(S)映射方法的研究,TP311.13
  7. 基于语义的Web服务发现研究,TP393.09
  8. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  9. 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
  10. 分布式搜索引擎索引安全及缓存策略研究,TP333
  11. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  12. 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
  13. 教育培训行业互联网营销问题的研究,F49
  14. 搜索引擎侵权行为研究,D923
  15. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  16. 基于Agent元搜索引擎的个性化研究,TP391.3
  17. 论搜索引擎竞价排名的法律规制,D923.43
  18. 搜索引擎悖论解读,G254
  19. 基于多层QoS本体模型的个性化服务选择机制研究,TP391.1
  20. 基于搜索引擎网页排序算法研究,TP391.3
  21. 基于语义Web的信息检索技术研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com