学位论文 > 优秀研究生学位论文题录展示
全景式搜索引擎关键技术研究与实现
作 者: 程明波
导 师: 林磊
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 全景式搜索 标签相关度 层次标签
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Web2.0时代的到来,互联网的信息承载方式开始从单一的发布式服务向着互动式服务方向产生了巨大的变革,包括百科知识、博客、论坛、图像以及视频分享在内的一系列网络应用成为了这一时代的代表性服务方式。随着此类代表着更为开放与自由的信息媒体的成熟与发展,标签(又称网络书签)作为一种以自由开放为特点的全新的网络资源组织和管理方式,正逐渐被越来越多的网络应用所接受并开始形成一种可被广泛利用的网络资源。在此环境下,本文提出了一种全新的检索概念:全景式搜索引擎,其特点在于:针对用户输入的检索词,搜索引擎在后台对返回内容按照其资源表现形式和体裁(如百科知识、博客、论坛、新闻、图像、视频)进行分类,并据此将返回内容重构并组织成专题式的结果网页,从而为用户提供更为全面细致的检索信息。在此基础上,本文结合以标签表示的主题式搜索引擎技术提出并实现了一种全新基于主题的全景式搜索引擎Foxinfo,提供了一种面向主题搜索以多种形式信息展现主题相关信息的搜索引擎模式。结合Foxinfo系统,本文针对全景式搜索引擎的关键实现技术和主题式搜索技术中的主题(标签)关系挖掘技术开展了深入的研究和探讨,主要的内容有以下几个方面:第一,本文首先提出并实现了全景式搜索引擎的系统架构,并对其中的关键技术进行了探讨与研究。在数据采集技术方面对比了网络爬虫技术并设计实现了数据计算机新闻包装器。在数据索引中研究了如何有效地组织爬取的各种形式的网络资源。最后,在针对在线服务的关键技术研究中,本文对在线服务的通信模式以及各个检索模块的工作过程及其用到的技术进行了详细的阐述。第二,本文针对主题式搜索引擎中的相关主题(标签)挖掘技术展开了研究。本文以百度知识掌门人的问题及其对应标签为实验数据集,利用文档共现比、文档共现频率、向量空间模型等三种方法对标签的相关性挖掘技术展开了研究。经实验发现,文档共现比方法在实验数据集中表现优于另两种算法。第三,基于针对上述相关标签挖掘算法的研究,本文进一步探索了从标签集合中构建层次关系树的相关技术,提出并实现了以文档共现比和向量空间模型为基础度量的标签凝聚算法和聚类标签凝聚算法两种层次关系构建算法。实验表明,上述两种算法在百度知识掌门人的实验数据集上可以取得很好的构建效果。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-17 1.1 课题研究的背景和意义 10-12 1.2 相关领域研究现状 12-15 1.2.1 全景式搜索引擎研究现状 12-13 1.2.2 标签关系挖掘研究现状 13-15 1.3 本文的主要研究内容 15 1.4 本文的组织结构 15-17 第2章 全景式主题搜索引擎系统框架 17-31 2.1 引言 17 2.2 系统总体架构概览 17-20 2.2.1 系统概览 17 2.2.2 系统框架 17-20 2.3 数据采集关键技术 20-26 2.3.1 网络爬虫技术研究比较 20-21 2.3.2 系统的数据的采集 21-25 2.3.3 数据的存储方式 25-26 2.4 数据索引关键技术 26-27 2.4.1 数据对象格式化 26 2.4.2 对象倒排索引 26-27 2.5 在线服务关键技术 27-30 2.5.1 总控模块 28 2.5.2 在线网络服务 28 2.5.3 检索服务模块 28-30 2.6 本章小结 30-31 第3章 标签相关关系挖掘算法研究 31-39 3.1 引言 31 3.2 标签的表示方法 31 3.3 标签相关度量算法 31-34 3.3.1 文档共现频率 32 3.3.2 文档共现比 32-33 3.3.3 向量空间模型 33-34 3.4 标签度量实验结果及分析 34-38 3.4.1 评测数据 34-35 3.4.2 实验结果及分析 35-38 3.5 本章小结 38-39 第4章 层次标签关系树构造算法研究 39-58 4.1 引言 39 4.2 标签凝聚算法 39-42 4.2.1 二元树构造算法 39-40 4.2.2 树调整策略 40-42 4.3 聚类标签凝聚算法 42-44 4.3.1 标签聚类 43-44 4.3.2 层次标签树的构建 44 4.4 实验结果及评测 44-57 4.4.1 评测数据 44-49 4.4.2 实验结果及分析 49-57 4.5 本章小结 57-58 结论 58-59 参考文献 59-64 致谢 64
|
相似论文
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 雾天或背光条件下图像清晰化算法研究及硬件实现,TP391.41
- 多邮件自动文摘的关键技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|