学位论文 > 优秀研究生学位论文题录展示

多模态图像检索技术

作　者: 王洋
导　师: 李厚强
学　校: 中国科学技术大学
专　业: 信号与信息处理
关键词: 图像检索多模态输入拼图检索空间校验多样例检索虚拟帧视频检索相似图像检索
分类号: TP391.41
类　型: 博士论文
年　份: 2013年
下　载: 0次
引　用: 1次
阅　读: 论文下载

内容摘要

随着互联网和移动网络的发展,人们可以随时随地接入互联网获取信息。而搜索是人们通过互联网获取信息的主要途径之一。传统的搜索方法使用文本的方式进行检索,通常得到的也是文本信息。而互联网上如图片、视频、声音等多媒体信息爆炸式地增长,远远超过了文字信息。为了达到检索多媒体内容的目的,传统的基于文字的信息检索只能通过检索多媒体内相关文本的方式,把相关文本对应的多媒体内容返回给用户,其并不能根据多媒体的内容来进行检索。而最近在基于内容检索技术上的突破打破了这一局面。针对互联网上存在的大量重复的图片,人们通过一些图片特征进行匹配或索引,实现了以图搜图的目的。然而,这种方式仅限于搜索与查询图片相似的图片,而用户的检索意图往往是复杂多样的,单一的使用文本或图片检索无法满足用户复杂的检索意图。另一方面,手机、平板电脑等移动终端渐渐成为了人们接入互联网的主要途径。而这些移动设备本身提供了诸如语音、拍照、手势等大量交互方式。这些交互方式为我们丰富用户检索意图的表达提供了方便。目前手机上的检索仍然采用传统台式电脑的文本检索和网页方式,没有充分利用移动设备的优势。本文充分发掘移动设备的交互优势,结合文本与图片,创造性地提出了一种利用语音／文字输入,结合视觉信息筛选的图像检索方式。本论文的研究内容主要集中在基于内容的图像检索方法,分别在检索的查询条件构建,特征的构建、组织,以及视频序列的索引结构上。本论文的主要工作和创新之处归纳为以下几点：(1)论文提出一种在移动终端上利用多模态输入方便构建查询条件的方式以及整个系统的实现方法。首先用户用语音输入来描述想要搜索的目标,系统利用视觉和文本对应关系,根据用户描述中所包含的的关键词,采用聚类算法为用户推荐一些图片素材,用户选择一系列符合用户意图的素材,并且通过调整素材的大小和位置构造出一幅拼图。系统根据用户的文字输入得到候选图片,再根据拼图的元素及元素间位置关系,对图片进行过滤,返回给用户既满足文本查询条件,也满足视觉查询条件的图片结果。论文提出了有效的算法,根据视觉特征和位置关系对图片进行过滤。提出的算法最终使得整个系统成为可能。(2)论文提出了利用拼图中的多样例图片以及相对位置关系对海量图片进行索引和检索的算法。对于大规模海量图片,构造一个有空间位置关系的拼图进行检索,需要考虑组成拼图的各个视觉元素的存在性和相对位置关系。本文打破了以往只能根据绝对位置进行匹配、校验的方式,采用自然分割获取视觉单词,利用视觉单词确定每个目标的存在性以及位置,最后对每对目标的相对位置进行校验,判断位置关系是否符合要求。通过对比试验,本文证明了相对位置校验相比绝对位置方法的优越性。此外,本文还第一次提出将多样例图片搜索方法引入相似图片检索,将查询图片先粗分割成若干简单元素变成多样例图片,通过查找简单元素并进行相对位置校验,找到与之相似的图片。(3)论文还提出了对视频序列的高效视觉索引方法。为了把视觉索引方法引入视频,论文提出了一种利用局部特征匹配进行视频的划分方法,把视频分割成几段可以用共享特征描述的场景。不同于传统的使用关键帧来索引视频,文章提出了对于每个场景提取一个虚拟帧来描述其内容的方法。虚拟帧包含了少量场景内最稳定的特征,用更少的特征保存了尽可能多的视频信息。作者将虚拟帧与关键帧进行试验比较,证明了虚拟帧比关键帧在对视频的描述上具有更好的紧凑性和有效性,因此更适于对视频的视觉索引。总而言之,本文从基于内容的角度出发,针对多模态输入、图像特征、多样例检索以及对视频的索引进行讨论,提出思考问题的新的角度和解决问题的新的方法。同时,本文也通过一些应用场景和实验验证了这些方法的可行性和有效性。

全文目录

摘要  5-7
ABSTRACT  7-12
第1章绪论  12-28
  1.1 引言  12-17
    1.1.1 多模态图像检索  16-17
  1.2 国内外研究现状  17-25
    1.2.1 多模态检索方式  18-19
    1.2.2 基于内容的图像检索  19-24
    1.2.3 移动视觉检索  24-25
  1.3 本文的结构安排和创新点  25-28
第2章多模态输入的图片检索  28-60
  2.1 背景介绍  28-29
  2.2 相关工作  29-32
  2.3 基于样例的图片检索  32-39
    2.3.1 样例图片生成  33-35
    2.3.2 基于样例图片的检索算法  35-36
    2.3.3 视觉相似度量匹配  36-39
  2.4 多样例图片检索  39-45
    2.4.1 视觉查询请求的构造  39-40
    2.4.2 相似度量  40-45
  2.5 多模态移动图像检索系统  45-49
    2.5.1 语音识别和关键词提取  46-47
    2.5.2 用户交互设计  47-49
  2.6 实验结果  49-58
    2.6.1 视觉检索客观评估  50-55
    2.6.2 易用性主观评估  55-57
    2.6.3 复杂度分析  57-58
  2.7 总结  58-60
第3章多样例查询条件的图像检索  60-82
  3.1 背景介绍  60-62
    3.1.1 大规模图片的相似性度量  61-62
    3.1.2 结果融合  62
  3.2 相关工作  62-65
  3.3 基于区域的多样例图像检索方法  65-72
    3.3.1 区域特征提取  65-67
    3.3.2 多样例的相关性度量  67-70
    3.3.3 索引和检索  70-72
  3.4 实验结果  72-80
    3.4.1 性能评估  72-79
    3.4.2 复杂度分析  79-80
  3.5 总结  80-82
第4章视频检索的索引方法  82-96
  4.1 背景介绍  82-85
  4.2 相关工作  85-87
    4.2.1 关键帧选取  85-86
    4.2.2 基于局部特征的视频检索  86-87
  4.3 虚拟帧生成  87-90
    4.3.1 局部特征匹配  87-88
    4.3.2 局部特征聚类  88-90
    4.3.3 局部特征选择  90
  4.4 虚拟帧表示  90-91
  4.5 实验结果  91-94
    4.5.1 算法实现与参数设定  91-92
    4.5.2 虚拟帧的表达性能  92-94
  4.6 总结  94-96
第5章总结与展望  96-100
  5.1 本文工作总结  96-98
  5.2 未来工作展望  98-100
参考文献  100-105
致谢  105-106
在读期间发表的学术论文与取得的其他研究成果  106

多模态图像检索技术

内容摘要

全文目录

相似论文