学位论文 > 优秀研究生学位论文题录展示

基于领域本体的聚焦爬虫技术研究

作 者: 崔其文
导 师: 李登道
学 校: 山东科技大学
专 业: 计算机应用技术
关键词: 聚焦爬虫 领域本体 Hits算法 向量空间模型 最佳优先算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 104次
引 用: 0次
阅 读: 论文下载
 

内容摘要


Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用户提供专业信息服务的垂直搜索引擎。相应地,在通用爬虫技术研究的基础上,也需要进一步对聚焦爬虫技术进行研究。论文首先对搜索引擎和垂直搜索引擎、通用爬虫和聚焦爬虫的相关概念、体系结构及工作原理做出了介绍和讨论。然后,从抓取目标的描述、网页分析算法和网页搜索算法三个角度对传统的聚焦爬虫关键技术进行了分析,为进一步的研究打下了铺垫。论文重点对基于领域本体的聚焦爬虫技术进行了深入研究。主要的工作与论点如下:(1)论文讨论了被用作聚焦爬虫主题模型的领域本体的设计、构建和更新方法。从路径距离、语义重合度、语义深度、语义密度和概念属性几个角度,研究并改进了领域本体概念语义相似度的计算方法。(2)论文提出一种基于领域本体概念语义相似性的主题相关度计算方法,通过对向量空间模型中的网页文档向量进行语义扩展,使聚焦爬虫对网页的分析具备了一定程度的概念语义特性,提高了聚焦爬虫的查全率和查准率。(3)论文提出一种面向主题的改进的Hits算法,它从URL字符串、锚文本、扩展锚文本及父页面主题相关度几个方面来分析链接基于内容的主题相关性。然后,将基于内容的分析加入到传统的基于网络链接结构的Hits算法中,使其在综合考虑网页内容和网络链接结构的前提下得到了很大程度的优化,削弱了主题漂移现象。(4)针对Web Community和隧道现象所造成的最佳优先算法只能做到“局部最优”的现象,论文提出一种基于隧道技术的最佳优先算法。算法引入URL优先队列和多个URL候选队列的概念,通过暂不放弃主题无关URL以发现更多主题相关URL的策略,使得最佳优先算法在某种程度上跨越了网络隧道,初步具备了“全局最优”的特点。

全文目录


摘要  5-6
ABSTRACT  6-10
1 绪论  10-16
  1.1 课题研究背景  10-11
  1.2 课题研究状况及发展趋势  11-14
  1.3 论文研究内容  14-15
  1.4 论文组织结构  15-16
2 搜索引擎技术概述  16-25
  2.1 搜索引擎的概念及性能指标  16-17
  2.2 搜索引擎的分类及发展趋势  17-18
  2.3 搜索引擎体系结构及工作原理  18-21
  2.4 从通用搜索到垂直搜索  21-24
  2.5 本章小结  24-25
3 聚焦爬虫技术概述  25-38
  3.1 通用爬虫与聚焦爬虫  25-27
  3.2 聚焦爬虫体系结构及工作原理  27-29
  3.3 聚焦爬虫关键技术  29-37
  3.4 本章小结  37-38
4 领域本体在聚焦爬虫中的应用  38-53
  4.1 本体相关理论  38-41
  4.2 聚焦爬虫领域本体的设计、构建与更新  41-47
  4.3 领域本体概念语义相似度计算方法的改进与应用  47-52
  4.4 本章小结  52-53
5 基于领域本体的聚焦爬虫技术研究  53-69
  5.1 基于领域本体概念语义相似性的主题相关度计算方法  53-57
  5.2 基于改进的Hits算法的主题相关性预测方法  57-64
  5.3 基于隧道技术的最佳优先算法  64-68
  5.4 本章小结  68-69
6 总结与展望  69-71
  6.1 总结  69
  6.2 展望  69-71
参考文献  71-74
致谢  74-75
攻读硕士期间主要成果  75

相似论文

  1. 基于停用词处理的汉语语音检索方法,TP391.1
  2. 基于SVM分类算法的主题爬虫研究,TP391.3
  3. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  4. 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
  5. 基于领域本体的海洋环境数据仓库设计,TP311.13
  6. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  7. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  8. 面向汽车行业的主题爬虫研究与实现,TP391.3
  9. 面向短消息文本的聚类技术研究与应用,TP391.1
  10. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  11. 网络教育新闻文本分类系统的设计与实现,TP391.1
  12. 面向论坛信息文本的有效数据抽取研究,TP391.1
  13. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  14. 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
  15. Web新闻热点发现系统的设计与实现,TP393.09
  16. 多角色社交网络研究,TP393.09
  17. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  18. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  19. 面向学科的文献资源聚类系统研究及应用,TP391.1
  20. 中文文本倾向性分类系统研究,TP391.1
  21. 网络文本信息采集分析关键技术研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com