学位论文 > 优秀研究生学位论文题录展示

个性化多媒体资源垂直搜索引擎技术研究

作　者: 张赢
导　师: 万仲保
学　校: 华东交通大学
专　业: 计算机软件与理论
关键词: 垂直搜索引擎多媒体资源网络蜘蛛信息抽取文本索引
分类号: TP391.3
类　型: 硕士论文
年　份: 2009年
下　载: 105次
引　用: 0次
阅　读: 论文下载

内容摘要

伴随着社会的信息化和Internet的迅猛发展,网络给人们提供了丰富的信息资源。但是,庞大的信息量也使用户在网络上寻找自己所需的信息时,如同淹没在信息的汪洋大海中,找到所需的信息如同大海捞针,所以搜索引擎技术成为当前IT界和学术界的研究热点。随着人们对个性化信息服务需要的日益增长,同时垂直搜索引擎本身具有通用搜索引擎所不可比拟的优势,所以垂直搜索的发展将成为搜索引擎发展的主要趋势之一,具有广阔的市场应用前景。本文首先论述了搜索引擎的基本原理及其分类,接着详细介绍了当前的垂直搜索引擎技术原理和现状并深入分析了它的基本结构,提出了多媒体领域的垂直搜索技术。在分析了垂直搜索引擎的基本结构之后,本文提出了构造引擎最重要的三个架构单元,即网络蜘蛛单元、结构化信息提取单元和文本索引单元,并做了深入细致的分析。在此基础之上,提出一个面向多媒体视频资源的垂直搜索引擎方案,使之能够比较全面和准确的满足用户的搜索需求,凸显其个性化和智能化。

全文目录

摘要  4-5
ABSTRACT  5-9
第一章绪论  9-14
  1.1 搜索引擎技术概述  9-11
    1.1.1 搜索引擎的概念  9
    1.1.2 搜索引擎的工作原理  9-10
    1.1.3 搜索引擎的体系结构  10-11
  1.2 搜索引擎的分类  11-12
    1.2.1 通用搜索引擎  11-12
    1.2.2 垂直搜索引擎  12
  1.3 论文的主要工作  12
  1.4 论文的组织结构  12-14
第二章垂直搜索引擎技术  14-24
  2.1 垂直搜索引擎的概念  14
  2.2 垂直搜索与通用搜索的差别  14-17
    2.2.1 在信息服务上的比较  15
    2.2.2 在关键技术上的比较  15-17
  2.3 垂直搜索的研究现状  17-19
    2.3.1 国外研究现状  17-18
    2.3.2 国内研究现状  18-19
  2.4 垂直搜索引擎的基本结构  19-20
  2.5 多媒体领域的垂直搜索技术  20-23
    2.5.1 常见的多媒体搜索引擎  20-21
    2.5.2 目前多媒体搜索存在的问题  21-22
    2.5.3 多媒体搜索的发展趋势  22
    2.5.4 多媒体垂直搜索领域可能的研究内容  22-23
  2.6 本章小结  23-24
第三章网络蜘蛛的相关研究  24-32
  3.1 网络蜘蛛技术  24-26
    3.1.1 网络蜘蛛原理  24
    3.1.2 访问策略与算法  24-25
    3.1.3 效率优化与更新  25-26
  3.2 网络蜘蛛的基本结构  26-27
  3.3 网络蜘蛛的性能评价指标  27-28
  3.4 网络蜘蛛WebLech 的研究  28-31
    3.4.1 WebLech 工作特点  28-29
    3.4.2 WebLech 流程分析  29-31
  3.5 本章小结  31-32
第四章领域知识信息的抽取与索引技术  32-53
  4.1 领域知识信息抽取技术  32-34
    4.1.1 信息抽取技术概述  32
    4.1.2 领域知识信息抽取的关键任务  32-33
    4.1.3 领域知识信息抽取的研究方式和比较  33-34
  4.2 Web 页面信息的抽取  34-38
    4.2.1 Web 信息抽取技术概述  34-35
    4.2.2 Web 信息抽取关键技术  35
    4.2.3 Web 信息抽取的分类  35-37
    4.2.4 Web 信息抽取的改良  37-38
  4.3 索引检索工具Lucene  38-45
    4.3.1 Lucene 简介  38
    4.3.2 Lucene 的发展及现状  38-39
    4.3.3 Lucene 的系统结构分析  39-43
    4.3.4 基于Lucene 的应用开发  43-45
  4.4 文本信息索引技术  45-48
    4.4.1 索引技术概述  45
    4.4.2 倒排索引技术  45-46
    4.4.3 信息索引技术的改进  46-48
  4.5 中文分词技术  48-52
    4.5.1 中文分词简介  48
    4.5.2 中文分词常用方法  48-49
    4.5.3 中文分词的难题  49
    4.5.4 中文分词的应用  49-50
    4.5.5 中文分词难题的解决方案  50-52
  4.6 本章小结  52-53
第五章个性化多媒体资源垂直搜索引擎的设计  53-67
  5.1 系统设计思想和功能目标  53
  5.2 系统总体设计  53-55
  5.3 信息源处理子系统模块  55-58
  5.4 解析模块  58-59
  5.5 索引建立模块  59-60
  5.6 查询子系统模块  60-63
  5.7 智能反馈模块  63-64
  5.8 性能测试及结果分析  64-66
    5.8.1 测试的专题领域  65
    5.8.2 专题准确率与专题资源发现率的结果分析  65-66
    5.8.3 网页采集时间结果分析  66
  5.9 本章小结  66-67
第六章结束语  67-69
  6.1 主要工作回顾  67
  6.2 本课题今后需进一步研究的地方  67-69
参考文献  69-72
个人简历在读期间发表的学术论文  72-73
致谢  73

个性化多媒体资源垂直搜索引擎技术研究

内容摘要

全文目录

相似论文