学位论文 > 优秀研究生学位论文题录展示

数字视频中字幕的检测与提取

作　者: 昝蕊
导　师: 胡静波
学　校: 长春工业大学
专　业: 信号与信息处理
关键词: 数字视频字幕帧检测字幕区定位字幕识别
分类号: TP391.41
类　型: 硕士论文
年　份: 2010年
下　载: 67次
引　用: 0次
阅　读: 论文下载

内容摘要

对数字视频中的字幕进行检测及提取是基于字幕的视频检索的重要组成部分。利用字幕进行检索可以大大降低视频检索的复杂度,提高视频检索的速度和准确性,因此,自动地从视频中检测及提取出字幕,对基于内容的视频检索有着重要的意义。字幕存在于视频的图像帧中,要进行字幕提取,首先要对视频进行镜头分段,再针对每段镜头提取出字幕帧,接着对字幕帧图像进行字幕区定位,最后提取出字幕并送入OCR软件进行识别。本文主要完成以下内容：1.镜头分段部分,对双重比较镜头分段算法进行改进,将阈值的选取自适应化。通过软件编程,运用此算法实现了镜头的突变和渐变检测,实验表明此方法具有一定的实用性。2.字幕帧检测部分,对基于内容分析的关键帧提取算法进行改进,将关键帧提取与字幕帧检测相结合,选取关键帧中最大亮度方差的一帧作为字幕帧。改进后的算法主要针对的是新闻视频中的字幕帧检测,具有针对性,但缺乏通用性。3.字幕区域定位部分,提出了基于小波的视频字幕定位算法。首先对字幕帧图像进行灰度化,并进行小波加权重构,再运用二值形态学处理去除非字幕块,然后运用多尺度边缘检测加强边缘,最后通过投影定位出字幕区域。该算法创新在于将多尺度边缘检测用于字幕区定位,提高了查全率。仿真实验表明此方法对阈值的设定不敏感,在复杂多变的视频背景下,仍然有比较好的效果。4.字幕识别部分,首先对提取出的字幕进行插值放大,提高分辨率,采用全局阈值法二值化字幕,用投影方法分割出字幕,送入OCR软件进行识别。大量实验表明,此方法效果比较满意。

全文目录

摘要  2-3
Abstract  3-4
目录  4-9
第一章绪论  9-17
  1.1 引言  9
  1.2 论文研究的背景和意义  9-10
  1.3 国内外有关研究现状  10-15
    1.3.1 国外研究情况  10-13
    1.3.2 国内研究情况  13-15
  1.4 论文的主要工作和内容安排  15-17
    1.4.1 主要工作  15
    1.4.2 内容安排  15-17
第二章数字视频中字幕帧的检测  17-31
  2.1 基本概念  17-18
    2.1.1 字幕事件的类型  17-18
  2.2 镜头分段  18-25
    2.2.1 镜头分段的概念  19-20
    2.2.2 常用的镜头分段方法  20-23
    2.2.3 一种改进的双重比较镜头分段算法  23-25
    2.2.4 实验结果  25
  2.3 字幕帧的检测方法  25-31
    2.3.1 典型关键帧提取算法  25-26
    2.3.2 基于内容分析的关键帧提取  26-28
    2.3.3 本文字幕帧的检测方法  28
    2.3.4 实验结果  28-31
第三章数字视频中字幕的定位  31-51
  3.1 小波变换理论  31-33
    3.1.1 小波变换的基本概念  31-32
    3.1.2 连续小波变换  32
    3.1.3 离散小波变换  32-33
  3.2 多分辨分析理论  33-38
    3.2.1 一维正交多分辨分析  33-34
    3.2.2 二维正交多分辨分析  34-35
    3.2.3 二维正交Mallat塔式算法  35-38
  3.3 基于小波总能量的视频字幕定位方法  38-43
    3.3.1 数字视频字幕的特点  38
    3.3.2 纹理能量的计算  38-39
    3.3.3 字幕行定位  39-41
    3.3.4 字幕列定位  41-43
    3.3.5 字幕区域提取  43
    3.3.6 实验结果分析  43
  3.4 本文基于小波的视频字幕定位方法  43-51
    3.4.1 灰度化  43-44
    3.4.2 小波加权重构  44-45
    3.4.3 形态学处理  45-46
    3.4.4 多尺度边缘检测  46-47
    3.4.5 字幕区域定位  47-48
    3.4.6 实验及结果分析  48-51
第四章数字视频中字幕的识别  51-64
  4.1 字幕的二值化  51-55
    4.1.1 字幕的插值算法  51-54
    4.1.2 字幕的二值化  54-55
  4.2 字幕的分割  55-58
    4.2.1 投影分割法  55-56
    4.2.2 错误分割的几种情况  56-58
  4.3 字幕的识别  58-63
    4.3.1 光学字符识别(OCR)软件  58-59
    4.3.2 字符识别技术  59-62
    4.3.3 字幕的识别  62-63
  4.4 实验结果分析  63-64
第五章总结与展望  64-65
  5.1 本文工作总结  64
  5.2 展望  64-65
致谢  65-66
参考文献  66-70
攻读硕士期间研究成果  70-72

相似论文

家庭信息终端中视频编码模块的设计与实现,TN919.81
基于DM6437的视频烟雾检测系统,TP391.41
基于目标的数字视频增强研究,TP391.41
基于JAVA的视频管理服务平台,TP311.52
酒钢生产指挥中心数字监控系统的设计与实现,TP277
基于线阵像素差值法的智能数字视频监控系统设计与实现,TP391.41
基于“鬼影”的数字视频篡改检测,TP391.41
基于MPEG-2运动补偿边缘效应的视频篡改检测研究,TN919.81
数字视频被动取证技术研究,TN919.81
数字视频监控系统中信道编码系统的研究与设计,TN911.22
基于MPLS-VPN网络的数字视频监控系统的设计与实现,TP277
基于混沌序列的数字视频水印算法研究,TP309.7
数字电视电子节目指南和字幕系统的设计与实现,TN949.197
基于数字接口的视频信息电磁泄漏机理与防护,TP391.41
数字视频光端机的设计与实现,TN919.82
MHG中无线监控系统设计与研究,TP277
电信机房数字化视频监控联网管理系统,TP277
基于人类视觉系统（HVS）的数字视频水印算法研究,TP309.7
基于STb7100的DVB-T机顶盒软件系统的研究与实现,TP311.52
基于TMS320DM6467的多功能多媒体处理平台的硬件设计与实现,TP391.41