学位论文 > 优秀研究生学位论文题录展示

基于语义上下文建模的图像语义自动标注研究

作 者: 向宇
导 师: 周向东
学 校: 复旦大学
专 业: 计算机软件与理论
关键词: 图像语义自动标注 语义上下文建模 马尔科夫随机场 条件随机场 生成模型 判别模型 最大边缘
分类号: TP391.41
类 型: 硕士论文
年 份: 2010年
下 载: 138次
引 用: 0次
阅 读: 论文下载
 

内容摘要


由于图像语义自动标注(Automatic Image Annotation, AIA)在基于关键词的图像和视频的检索与浏览上具有巨大的应用前景,AIA在近年来受到了人们的广泛关注。解决AIA问题的瓶颈在于图像底层的视觉特征与高层的语义概念之间存在“语义鸿沟”(Semantic Gap),即图像视觉特征相似并不能保证图像语义一致。为了跨越这条“语义鸿沟”,研究者们基于生成模型判别模型提出了多种图像语义自动标注的方法。此外,语义概念之间的相互关系已经被应用于图像语义自动标注,并且取得了令人鼓舞的结果。通过对语义上下文建模,生成模型和判别模型的性能都得到了改进。本研究工作提出了一个马尔科夫随机场(Markov Random Field, MRF)标注框架用于对图像语义自动标注中的语义上下文建模。与先前视觉识别工作中对图像像素或图像区域空间位置关系建模的MRF不同,我们提出的MRF是在语义概念上构造,用于对语义概念之间的相互关系建模。具体来讲,MRF中的点表示语义概念,而边表示语义概念之间的相关性。每个点上有一个二值标签来表示相应的语义概念在给定的图像中出现或不出现。在MRF标注框架下,我们提出了一种新颖的多马尔科夫随机场(Multiple Markov Random Field, MMRF)上下文相关模型对语义上下文建模。MMRF通过构造语义层的MRF模型来改进AIA中传统生成模型的标注结果。具体来讲,我们基于生成模型估计的图像视觉特征与语义概念共同出现的联合概率,设计了MRF新颖的势函数。为了准确地捕获不同语义概念的语义,我们为每一个语义概念构造自身的MRF。此外,我们高效地解决了MMRF的参数估计和模型推理问题。为了进一步发掘语义上下文相关模型的能力,我们在MRF标注框架下提出了一种新颖的判别条件随机场模型对语义上下文建模,称之为最大边缘条件随机场(Maximal Margin Conditional Random Field, MMCRF)上下文相关模型。MMCRF能够同时从语义层次与视觉层次上对语义相关性建模。具体来讲,我们基于线性判别模型设计了MMCRF的势函数,并提出了拆分的Hinge损失在最大边缘框架下估计MMCRF的参数。模型的训练转化为采用我们推导出的上下文核函数求解一系列独立的二次规划问题。我们在公用的标注数据集:Corel图像数据集和TRECVID-2005视频数据集上进行了实验来评估MMRF和MMCRF的标注性能。实验结果表明,与当前最先进的标注方法相比,我们的模型能够显著地改进标注性能。特别是MMRF在Corel数据集263个关键词上的平均查全率和平均查准率分别达到了0.36和0.31,至今仍然是Corel数据集上一个很有竞争力的结果。

全文目录


摘要  5-7
Abstract  7-9
第一章 绪论  9-14
  1.1.引言  9-11
  1.2.本文工作  11-13
  1.3.本文组织结构  13-14
第二章 相关工作及研究背景  14-18
  2.1.图像语义自动标注  14-15
  2.2.语义上下文建模  15-16
  2.3.马尔科夫随机场  16-18
第三章 多马尔科夫随机场上下文相关模型  18-30
  3.1.概念图  19
  3.2.基于生成模型的势函数设计  19-20
  3.3.正则化最大伪似然参数估计  20-22
  3.4.模型推理  22-23
  3.5.MMRF图像语义自动标注算法  23-24
    3.5.1.训练集的构造  23-24
    3.5.2.标注算法  24
  3.6.实验  24-29
    3.6.1.实验数据集  24-25
    3.6.2.评价度量  25
    3.6.3.在Corel数据集上的对比  25-28
    3.6.4.在TRECVID-2005数据集上的对比  28-29
  3.7.本章小结  29-30
第四章 最大边缘条件随机场上下文相关模型  30-44
  4.1.条件随机场  31
  4.2.概念图  31-32
  4.3.势函数设计  32-33
  4.4.最大边缘参数估计  33-37
    4.4.1.拆分的Hinge损失  33-35
    4.4.2.有偏向的正则化  35
    4.4.3.参数估计框架  35
    4.4.4.利用上下文核函数求解最优化问题的算法  35-36
    4.4.5.核函数的构造  36-37
  4.5.模型推理  37-38
  4.6.实验  38-43
    4.6.1.实验数据集  38
    4.6.2.特征提取  38-39
    4.6.3.评价度量  39
    4.6.4.语义上下文建模评价  39-40
    4.6.5.在Corel数据集上的对比  40-41
    4.6.6.在TRECVID-2005数据集上的对比  41-43
  4.7.本章小结  43-44
第五章 结束语  44-46
  5.1.本文贡献  44-45
    5.1.1.马尔科夫随机场标注框架  44
    5.1.2.多马尔科夫随机场上下文相关模型  44-45
    5.1.3.最大边缘条件随机场上下文相关模型  45
  5.2.将来工作  45-46
附录  46-48
  1.命题4.1的证明  46-48
参考文献  48-53
攻读学位期间作者的研究成果  53-54
  1.参与科研项目  53
  2.已发表和录用论文  53-54
致谢  54-55

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  3. 基于空间邻域词袋模型的图像标注技术,TP391.41
  4. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  5. 长文本辅助短文本的知识迁移聚类方法,TP391.1
  6. 基于条件随机场的RNA二级结构预测算法,R346
  7. 基于字词联合解码的中文分词研究,TP391.1
  8. 中文命名实体识别与歧义消解研究,TP391.1
  9. 基于马尔科夫随机场D-S证据理论对人脑图像的分割研究,TP391.41
  10. 基于贝叶斯置信传播的图像分割方法研究,TP391.41
  11. 基于特征的运动物体识别与追踪方法研究,TP391.41
  12. 基于马尔科夫随机场的三维网格模型分割算法研究,TP391.41
  13. 基于置信度传播的立体匹配算法研究,TP391.41
  14. 我国商业银行信用风险度量研究,F832.3
  15. 基于规则与统计的语气词用法自动识别研究,TP391.1
  16. 基于多元判别模型和BP神经网络模型的上市公司财务困境预警,F832.51;F275
  17. 引入组织绩效的上市公司财务危机预警模型实证研究,F224
  18. 判别模型在课堂教学评价中的运用初探,G633.6
  19. 基于步态加速度信号的身份认证方法研究,TN911.7
  20. 图像的自动语义标注技术研究与实现,TP391.41
  21. 融合词性信息的声学模型建模及研究,TN912.34

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com