学位论文 > 优秀研究生学位论文题录展示
个性化多媒体资源垂直搜索引擎技术研究
作 者: 张赢
导 师: 万仲保
学 校: 华东交通大学
专 业: 计算机软件与理论
关键词: 垂直搜索引擎 多媒体资源 网络蜘蛛 信息抽取 文本索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 105次
引 用: 0次
阅 读: 论文下载
内容摘要
伴随着社会的信息化和Internet的迅猛发展,网络给人们提供了丰富的信息资源。但是,庞大的信息量也使用户在网络上寻找自己所需的信息时,如同淹没在信息的汪洋大海中,找到所需的信息如同大海捞针,所以搜索引擎技术成为当前IT界和学术界的研究热点。随着人们对个性化信息服务需要的日益增长,同时垂直搜索引擎本身具有通用搜索引擎所不可比拟的优势,所以垂直搜索的发展将成为搜索引擎发展的主要趋势之一,具有广阔的市场应用前景。本文首先论述了搜索引擎的基本原理及其分类,接着详细介绍了当前的垂直搜索引擎技术原理和现状并深入分析了它的基本结构,提出了多媒体领域的垂直搜索技术。在分析了垂直搜索引擎的基本结构之后,本文提出了构造引擎最重要的三个架构单元,即网络蜘蛛单元、结构化信息提取单元和文本索引单元,并做了深入细致的分析。在此基础之上,提出一个面向多媒体视频资源的垂直搜索引擎方案,使之能够比较全面和准确的满足用户的搜索需求,凸显其个性化和智能化。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-14 1.1 搜索引擎技术概述 9-11 1.1.1 搜索引擎的概念 9 1.1.2 搜索引擎的工作原理 9-10 1.1.3 搜索引擎的体系结构 10-11 1.2 搜索引擎的分类 11-12 1.2.1 通用搜索引擎 11-12 1.2.2 垂直搜索引擎 12 1.3 论文的主要工作 12 1.4 论文的组织结构 12-14 第二章 垂直搜索引擎技术 14-24 2.1 垂直搜索引擎的概念 14 2.2 垂直搜索与通用搜索的差别 14-17 2.2.1 在信息服务上的比较 15 2.2.2 在关键技术上的比较 15-17 2.3 垂直搜索的研究现状 17-19 2.3.1 国外研究现状 17-18 2.3.2 国内研究现状 18-19 2.4 垂直搜索引擎的基本结构 19-20 2.5 多媒体领域的垂直搜索技术 20-23 2.5.1 常见的多媒体搜索引擎 20-21 2.5.2 目前多媒体搜索存在的问题 21-22 2.5.3 多媒体搜索的发展趋势 22 2.5.4 多媒体垂直搜索领域可能的研究内容 22-23 2.6 本章小结 23-24 第三章 网络蜘蛛的相关研究 24-32 3.1 网络蜘蛛技术 24-26 3.1.1 网络蜘蛛原理 24 3.1.2 访问策略与算法 24-25 3.1.3 效率优化与更新 25-26 3.2 网络蜘蛛的基本结构 26-27 3.3 网络蜘蛛的性能评价指标 27-28 3.4 网络蜘蛛WebLech 的研究 28-31 3.4.1 WebLech 工作特点 28-29 3.4.2 WebLech 流程分析 29-31 3.5 本章小结 31-32 第四章 领域知识信息的抽取与索引技术 32-53 4.1 领域知识信息抽取技术 32-34 4.1.1 信息抽取技术概述 32 4.1.2 领域知识信息抽取的关键任务 32-33 4.1.3 领域知识信息抽取的研究方式和比较 33-34 4.2 Web 页面信息的抽取 34-38 4.2.1 Web 信息抽取技术概述 34-35 4.2.2 Web 信息抽取关键技术 35 4.2.3 Web 信息抽取的分类 35-37 4.2.4 Web 信息抽取的改良 37-38 4.3 索引检索工具Lucene 38-45 4.3.1 Lucene 简介 38 4.3.2 Lucene 的发展及现状 38-39 4.3.3 Lucene 的系统结构分析 39-43 4.3.4 基于Lucene 的应用开发 43-45 4.4 文本信息索引技术 45-48 4.4.1 索引技术概述 45 4.4.2 倒排索引技术 45-46 4.4.3 信息索引技术的改进 46-48 4.5 中文分词技术 48-52 4.5.1 中文分词简介 48 4.5.2 中文分词常用方法 48-49 4.5.3 中文分词的难题 49 4.5.4 中文分词的应用 49-50 4.5.5 中文分词难题的解决方案 50-52 4.6 本章小结 52-53 第五章 个性化多媒体资源垂直搜索引擎的设计 53-67 5.1 系统设计思想和功能目标 53 5.2 系统总体设计 53-55 5.3 信息源处理子系统模块 55-58 5.4 解析模块 58-59 5.5 索引建立模块 59-60 5.6 查询子系统模块 60-63 5.7 智能反馈模块 63-64 5.8 性能测试及结果分析 64-66 5.8.1 测试的专题领域 65 5.8.2 专题准确率与专题资源发现率的结果分析 65-66 5.8.3 网页采集时间结果分析 66 5.9 本章小结 66-67 第六章 结束语 67-69 6.1 主要工作回顾 67 6.2 本课题今后需进一步研究的地方 67-69 参考文献 69-72 个人简历 在读期间发表的学术论文 72-73 致谢 73
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于搜索引擎的自动问答系统,TP391.3
- 基于互联网的个性化健康信息定制系统构建,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|