学位论文 > 优秀研究生学位论文题录展示

基于多模态融合的足球视频语义分析

作 者: 辛宪阳
导 师: 王学军
学 校: 吉林大学
专 业: 通信与信息系统
关键词: 足球视频 镜头分割 镜头分类 兴奋音 多模态
分类号: TP391.41
类 型: 硕士论文
年 份: 2011年
下 载: 76次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着科学技术的发展,人们获取信息的速度加快、信息量增多。如今,各种类型的信息在世界范围内得到了共享,人们正向信息化社会迈出坚实的一步。如何在众多的信息中检测出感兴趣的信息成为当今人类所关心的问题,信息检索这个概念就应运而生。目前人们所面临的问题不再是缺少多媒体的内容,而是如何全面、准确地按照人们所关心问题的语义检索出所需的片段成为了信息检索技术研究中的热点问题。对于足球视频检索来说,每场90分钟的比赛中精彩镜头往往仅几分钟,如何能够利用语义消息提取这些精彩镜头成为当今研究的重点。本文根据足球视频的特点,提出了一种在时间特征的基础上,融合视频流中各镜头之间的转换关系以及音频流中是否含有兴奋音,从而实现对足球视频中精彩事件检测的方法。本文主要从以下几个方面进行了研究:利用于HSV直方图的双阈值镜头分割算法对足球视频流进行镜头分割,并在每个镜头中提取3帧作为镜头的关键帧为后续的在视频流中分析处理数据打下基础。足球视频中的镜头类型包括长距离镜头、中距离镜头和特写镜头或场外镜头。本文对于它们之间的分类采用了结合草地绿色比率、图片下方10%内的草地绿色比率、次主颜色比率以及场地内最大人员面积的算法。该算法先利用草地绿色比率把部分长距离镜头查找出来,然后利用图片下方10%内的草地绿色比率检测出特写镜头或场外镜头,最后结合次主颜色比率以及场地内最大人员面积对另一部分长距离镜头和中距离镜头进行分类。场地白线是确定球门区域的重要因素之一,本文利用Hough变换对场地内白线上的点进行了检测。首先根据草地绿色像素范围值以及Hough变换求取直线的方法把场地内区域与背景观众区域分割开。然后,对场地内的区域进行灰度拉伸、边缘检测、二值化、形态学处理、细化等灰度图像处理方法,查找出白线上的点。最后,再利用Hough变换对场地内白线上的点进行检测,去除噪声的影响。足球视频中的音频信息对语义分析具有同样重要的作用,对于足球视频中音频流来说,当精彩事件发生时,解说员的评论声激动,导致短时平均短时能量很高,因此可以利用短时平均短时能量这个参数将兴奋音检测出来。最后,对于足球语义中的射门事件,本文提出了一种检测的方法。具体检测方案如下:在视频流中出现有含有禁区白线的长距离镜头、特写镜头或场外镜头、含禁区的长距离镜头这种转换方式,同时在音频流中能够检测到兴奋音。综合以上的研究内容,本文以Visual C++为开发平台,实现了一种足球视频中精彩事件的仿真检索系统。实验数据表明,本系统能够有效地检测出足球视频中的精彩事件。

全文目录


摘要  4-6
ABSTRACT  6-10
第1章 绪论  10-15
  1.1 课题背景  10
  1.2 多模态语义分析  10-11
  1.3 国内外研究现状  11-13
  1.4 本文主要工作及容安排  13-15
第2章 足球视频镜头分割及关键帧的选取  15-30
  2.1 镜头间的转换方式  15-16
  2.2 镜头分割技术  16-20
    2.2.1 模板匹配法  17
    2.2.2 直方图比较法  17-19
    2.2.3 边缘比较法  19-20
    2.2.4 块匹配法  20
  2.3 基于HSV 直方图的双阈值镜头分割算法  20-26
    2.3.1 颜色特征提取  20-23
    2.3.2 镜头分割方法  23-26
  2.4 镜头分割结果分析  26-27
  2.5 关键帧的选取  27-28
  2.6 本章小结  28-30
第3章 足球视频镜头分类  30-44
  3.1 分类规则  30-31
  3.2 基于位置的草地绿色比率分类方法  31-34
    3.2.1 草地绿色比率的镜头分类方法  32-33
    3.2.2 算法的改进  33-34
  3.3 次主颜色的提取  34-35
  3.4 场地内人员的识别  35-40
    3.4.1 场地的预提取  35
    3.4.2 形态学处理  35-37
    3.4.3 连通域分析  37-39
    3.4.4 人员检测与处理  39-40
  3.5 镜头分类算法流程  40-41
  3.6 镜头分类结果分析  41-43
  3.7 本章小结  43-44
第4章 足球视频中场地内部白线的提取  44-53
  4.1 场地边界直线的判定  44-47
    4.1.1 边缘检测  44-45
    4.1.2 Hough 变换原理  45-46
    4.1.3 场地边界直线的检测  46-47
  4.2 场地内灰度图像的处理  47-50
    4.2.1 灰度拉伸  47-48
    4.2.2 边缘检测  48
    4.2.3 二值化  48-49
    4.2.4 形态学处理  49
    4.2.5 细化  49-50
  4.3 白线的检测  50-51
  4.4 检测结果分析  51-52
  4.5 本章小结  52-53
第5章 足球视频中兴奋音的检测  53-61
  5.1 语音处理内容  53-54
  5.2 短时处理方法  54-57
    5.2.1 短时平均幅度和短时平均能量  54-56
    5.2.2 短时平均过零率  56-57
    5.2.3 短时自相关函数  57
    5.2.4 短时平均幅差函数  57
  5.3 兴奋音的提取  57-59
    5.3.1 兴奋音的特征  58
    5.3.2 算法分析  58-59
  5.4 兴奋音检测结果分析  59-60
  5.5 本章小结  60-61
第6章 射门事件的提取  61-66
  6.1 提取方案  61-62
    6.1.1 视频流的中间层关键字的判断  61-62
    6.1.2 音频流的底层特征的判断  62
  6.2 算法流程图  62-64
  6.3 结果分析  64-65
  6.4 本章小结  65-66
第7章 总结与展望  66-68
  7.1 本文主要工作  66-67
  7.2 下一步研究方向  67-68
参考文献  68-72
作者简介  72-73
致谢  73

相似论文

  1. 英文教科书多模态语篇的对比分析,H315
  2. 基于指纹与姓名语音的多模态生物特征融合身份识别技术的研究,TP391.41
  3. 视频分析中的镜头分割和目标跟踪研究,TP391.41
  4. 多线索融合的足球视频语义分析及事件检测,TP391.41
  5. 电影海报功能符号学角度的多模态话语分析,H052
  6. 杂志封面构图意义的多模态话语分析,H0
  7. 人工萤火虫群优化算法分析改进及应用研究,TP301.6
  8. 基于观测器的半主动多模态振动控制研究,TB535
  9. 多模态话语分析与电影作品及翻译,J905
  10. 教师课堂话语的多模态分析,H319
  11. 系统功能符号学视角下的多模态商业广告语篇分析,H052
  12. 基于嵌套Spreadsheet和数据流的多模态的Mashup应用构造,TP393.09
  13. 基于指纹与手指静脉的双模态识别算法研究,TP391.41
  14. 新闻视频主题追踪技术研究,TP391.41
  15. 人耳及人脸融合的多模态身份识别,TP391.41
  16. 中美房地产广告的多模态话语分析,H315
  17. 多模态话语分析,H0
  18. 基于多生物识别考试认证模式的理论与应用研究,TP391.41
  19. 大学英语教学中多模态协同作用下的意义建构,H319
  20. 奥运会会徽互动意义的多模态话语分析,H030
  21. 动态电视公益广告的多模态互动与人际意义生成,H052

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com