学位论文 > 优秀研究生学位论文题录展示
垂直搜索引擎关键技术的研究与实现
作 者: 林伟
导 师: 闵华清;史亚军
学 校: 华南理工大学
专 业: 软件工程
关键词: 垂直搜索引擎 网络爬虫 主题搜索
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 121次
引 用: 1次
阅 读: 论文下载
内容摘要
当今社会已经进入了网络信息时代,计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加,并且由于人类的参与使数据与信息系统中的不确定性更加的显著。如何从大量的﹑杂乱无章的﹑强干扰的数据中挖掘潜在的、有利用价值的信息,这给人类的智能信息处理能力提出了前所未有的挑战。在某些专业领域,如房地产、电子商务领域等,传统搜索引擎已经无法满足用户的需求。面对这些挑战,针对特定主题和个性化信息检索的垂直搜索引擎应运而生。基于主题的垂直搜索引擎已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点,本论文的研究就是以这一热点和难点技术而展开的。首先,对通用搜索引擎的组成部分作了简单介绍,并细述了其工作原理。进而对垂直搜索引擎的一些关键技术如主题网络爬虫、信息抽取、文本分类、垂直搜索引擎架构等进行了详细的阐述。接着,在垂直搜索引擎技术中,探讨网络爬虫以何种搜索策略访问Web,以提高效率和准确率。考虑到web页面上存在的主题孤岛问题,提出基于主题内容和URL链接地址分析的搜索算法,可以使网络爬虫穿越隧道爬过更多的相关主题页面来解决主题孤岛问题,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后,根据本文提出的方法,设计和实现一个与“高等教育”主题相关的垂直搜索引擎,主要实现的功能主要包括网页的爬取,网页的解析,网页相关度判断,抓取深度控制,日志及结果记录,可视化界面等。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-19 1.1 引言 10-11 1.2 通用搜索引擎概述 11-13 1.3 垂直搜索引擎技术 13-17 1.3.1 垂直搜索引擎概述 13 1.3.2 垂直搜索引擎的研究和发展概况 13-16 1.3.3 垂直搜索引擎组成及工作原理 16-17 1.4 论文研究内容及组织结构 17-19 第二章 垂直搜索引擎技术概述 19-35 2.1 引言 19 2.2 主题网络爬虫 19-26 2.2.1 主题爬虫的工作原理 19-20 2.2.2 主题爬虫结构 20-22 2.2.3 网络爬虫的搜索策略 22-26 2.3 信息抽取技术 26-29 2.3.1 信息抽取技术的评价标准 26-27 2.3.2 网络信息抽取关键技术 27-29 2.4 文本分类技术 29-31 2.4.1 文本表示模型 29 2.4.2 特征项提取 29-30 2.4.3 中文分词设计 30-31 2.5 垂直搜索引擎整体架构 31-34 2.5.1 Lucene 简介 31-33 2.5.2 Heritrix 简介 33-34 2.6 小结 34-35 第三章 基于主题内容和链接地址分析的网络爬虫的设计与研究 35-47 3.1 引言 35 3.2 主题搜索孤岛问题 35 3.3 常用网页搜索排序算法 35-42 3.3.1 基于链接分析的网页搜索排序算法 36-40 3.3.2 基于网页内容搜索排序算法 40-42 3.4 基于主题内容和URL 链接地址的网页排序算法 42-45 3.4.1 基于主题内容和URL 链接地址的网页排序算法描述 43-44 3.4.2 基于主题内容和URL 链接地址目标函数 44-45 3.5 小结 45-47 第四章 高等教育垂直搜索引擎设计与实现 47-59 4.1 引言 47 4.2 设计内容 47 4.3 系统框架设计 47-50 4.3.1 整体模块划分 47-48 4.3.2 系统流程设计 48-50 4.4 信息抽取模块 50 4.5 HTML 解析模块 50-52 4.5.1 标签的提取 50-51 4.5.2 链接提取 51 4.5.3 标题提取和编码格式转换 51 4.5.4 HTML 解析模块类图 51-52 4.6 相关度判断模块 52-54 4.6.1 分词 52-53 4.6.2 网页相关度判断搜索方法 53 4.6.3 模块类图 53-54 4.7 日志模块及综合管理模块 54-56 4.8 实验结果分析 56-58 4.9 小结 58-59 第五章 总结与展望 59-61 5.1 结论 59 5.2 后续研究工作展望 59-61 参考文献 61-63 致谢 63
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 网络舆情信息采集系统的设计与实现,TP393.09
- 面向企业竞争情报的主题搜索研究与实现,TP391.3
- 面向农产品信息的主题搜索引擎与信息推荐,TP391.3
- 主题搜索与Web挖掘的研究及系统实现,TP391.3
- 主题搜索引擎的研究与实现,TP391.3
- 基于Lucene教学资源搜索引擎的设计与实现,TP311.52
- 社交网络数据获取技术与实现,TP393.09
- 基于移动平台股票资讯搜索与预测系统研究,TP393.09
- Deep Web垂直搜索引擎研究,TP311.52
- 主题搜索网络爬虫的设计与研究,TP391.3
- 面向新闻领域的文本数据获取系统的设计与实现,TP391.1
- 面向个性化主题搜索的用户—查询词语义本体构建,TP391.1
- 主题搜索引擎的研究与实现,TP391.3
- 基于Lucene的面向主题信息搜索系统的关键技术分析及应用,TP391.3
- 支持Ajax技术的Deep Web网络爬虫模型研究,TP391.3
- 搜索引擎中网络爬虫及结果聚类的研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|