学位论文 > 优秀研究生学位论文题录展示

图像和视频文字检测技术研究

作　者: 叶齐祥
导　师: 高文
学　校: 中国科学院研究生院（计算技术研究所）
专　业: 计算机应用
关键词: 文字检测文字识别视频内容分析小波特征 SVM分类图像分割
分类号: TP391.4
类　型: 博士论文
年　份: 2006年
下　载: 1062次
引　用: 5次
阅　读: 论文下载

内容摘要

图像和视频中的文字是一种包含丰富信息的对象,对于视频内容分析、检索,图片内容理解等研究领域有重要作用。不同于其他典型模式(如单个汉字字符模式、人脸模式等),成行的文字在大小、灰度、形状、颜色等属性上具有很强的不一致性,在很多情况下文字还处于复杂的背景中,这给文字的检测和识别带来了巨大的困难。而且传统的使用机器学习方法直接检测图像块模式的方法不适合于文字检测问题。因此,本文基于由粗到精的检测思想,提出了适用于几种典型文字((1)视频叠加文字,(2)自然场景图像中的文字,(3)单个数字字符)的一个通用检测框架,在文字检测过程中,我们总是依赖于最可靠的特征进行文字粗定位,然后融合其他特征对候选文字进行验证。这样既提高了检测速度,又能够保证高的检测精度。在三种具体样例上,详细的分析了由粗到精的思想对于文字检测的有效性和重要性。在本文的总结和扩展中,讨论了将由粗到精的检测方法推广到检测图像中的其他纹理对象的可行性。对于视频帧中的叠加文字,作者使用了多尺度的小波特征进行检测。在这个研究中,我们着重研究了如何融合、选择有效的底层特征用于区分文字行和非文字行模式。首先,在文字行的粗定位程序中使用了小波能量特征和全局直方图分析的阈值确定方法检测候选文字象素,然后提出了一种“基于密度”的区域增长方法将离散的像素连接成为候选文字区域。对于检测到的候选文字区域,使用结构特征分割为单个的文字行。在精确分类过程中,融合了三种纹理特征和一种结构特征来表达文字行模式,使用了前向特征选择算法进行了融合特征的筛选。最后,基于选择的纹理特征,使用了支持向量机(SVM)方法分类文字行和非文字行模式。实验表明,算法能够快速,鲁棒的检测视频叠加文字。视频文字的背景往往是复杂的,基于图像灰度信息的OCR软件不能取得好的识别效果。为此,作者提出了一种从复杂背景中分割文字前景的算法。在此方法中,作者基于Canny边缘检测结果提出了一种采样规则,并且使用混合高斯模型(GMMs)对于采样像素在色度-亮度二维特征空间内建立颜色模型,然后使用颜色模型准确地检测所有前景像素。这种先采样后检测的方法,使得文字分割完全自动并且具有很好的效果。对于自然场景图像中的文字,在由粗到精的检测框架内,作者融合了颜色、小波直方图、OCR识别结果统计特征。并且研究了如何从复杂的图像中分割和定位文字行模式和对于发生了仿射形变的文字行进行恢复的方法。在此过程中,对图像分割技术、区域布局分析技术在文字行定位过程中的作用进行了深入的研究。对本文提出的由粗定位到精分类的检测框架进行了深化和验证。对于仿射形变文字行的恢复,利用了平面间的Homography运算,不需要任何摄像机参数。最后,作者研究了一种更为难于检测的文字模式——具有非刚体形变的字符(运动衫号码)。在这种字符的检测中,主要的困难来源于文字的扭曲变形,这种变形是非刚体

全文目录

摘要  4-6
Research on text detection in images and video frames  6-11
图目录  11-14
表目录  14-15
第一章引言  15-37
  1.1 文字检测研究的意义  15-17
    1.1.1 对于图像和视频内容分析的意义  15-16
    1.1.2 对于自然场景内容理解的意义  16-17
    1.1.3 作为一种典型模式进行研究的意义  17
  1.2 文字检测和识别问题分析  17-22
    1.2.1 文字检测问题阐述  17-18
    1.2.2 文字模式分析  18-20
    1.2.3 文字识别问题分析  20-22
  1.3 本文理论背景  22-29
    1.3.1 对象检测技术分析  22-23
    1.3.2 小波图片分解  23-25
    1.3.3 支持向量机分类  25-27
    1.3.4 广义向量量化  27-29
  1.4 相关研究概述  29-33
    1.4.1 基于边缘（梯度）特征的文字检测  30-31
    1.4.2 基于连接成分或者颜色分析的文字检测  31-32
    1.4.3 基于纹理特征的文字检测  32-33
    1.4.4 利用视频时间域特征进行文字检测  33
    1.4.5 自然场景中形变文字的恢复  33
  1.5 本文的主要工作和贡献  33-36
  1.6 论文的组织  36-37
第二章视频帧中的文字检测算法  37-61
  2.1 引言  37-40
  2.2 文字行粗定位  40-45
    2.2.1 多尺度的小波分解  40-41
    2.2.2 候选文字像素检测  41-42
    2.2.3 基于密度的区域增长  42-44
    2.2.4 候选文字区域分割为文字行  44-45
  2.3 文字行精确分类  45-53
    2.3.1 特征提取  45-50
    2.3.2 特征选择  50-51
    2.3.3 训练和分类  51-53
    2.3.4 多尺度（方向）检测结果合并  53
  2.4 实验结果  53-58
  2.5 本章小结  58-61
第三章复杂背景中文字分割算法  61-69
  3.1 引言  61-62
  3.2 无监督的文字分割方法  62-66
    3.2.1 基于规则采样  63-64
    3.2.2 文字像素颜色模型  64-65
    3.2.3 融合颜色信息和空间连接性的文字分割  65-66
    3.2.4 基于连接成份分析的后处理  66
  3.3 实验分析  66-68
  3.4 本章小结  68-69
第四章自然场景中的文字检测方法  69-89
  4.1 介绍  69-72
  4.2 文字检测  72-78
    4.2.1 候选文字区域定位  74
    4.2.2 区域布局分析  74-76
    4.2.3 文字/非文字分类  76-78
    4.2.4 基于OCR 的识别和反馈  78
  4.3 文字恢复  78-81
    4.3.1 文字是否发生仿射形变的判断  80-81
    4.3.2 基于Homography 的文字恢复  81
  4.4 实验分析  81-87
    4.4.1 实验数据集合(JDL_TEXT_DETECTION_DATASET（JTDD）)  81-83
    4.4.2 试验结果分析  83-85
    4.4.3 试验对比  85-87
  4.5 本章小结  87-89
第五章具有非刚体形变的字符检测方法  89-102
  5.1 介绍  89-90
  5.2 运动衫号码区域分割  90-95
    5.2.1 形成初始分割区域  91
    5.2.2 区域合并  91-92
    5.2.3 终止区域合并的规则  92-93
    5.2.4 分割算法描述  93-95
  5.3 候选定位  95-96
  5.4 形变字符特征提取和识别  96-98
    5.4.1 字符特征提取  96-97
    5.4.2 通过生成虚拟样本建立字符识别模型  97-98
  5.5 号码跟踪  98-99
  5.6 实验结果  99-101
  5.7 本章小结  101-102
第六章方法总结和扩展  102-109
  6.1 方法总结和扩展  102-106
    6.1.1 方法总结  102-103
    6.1.2 方法扩展  103-106
  6.2 实验分析  106-107
  6.3 本章小结  107-109
第七章结论  109-113
  7.1 本文取得的研究成果  109-111
  7.2 未来的研究方向  111-113
参考文献  113-120
致谢  120-121
作者简历  121-122

相似论文

森林防火系统中图像识别算法的研究,TP391.41
数字图像处理在集装箱检测中的应用研究,TP274.4
个性化人工膝关节设计及其生物力学特性研究,R318.1
基于图像处理技术的烟叶病害自动识别研究,S435.72
红外图像目标识别及跟踪技术研究,TP391.41
细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
基于知识的脊柱MRI影像分割算法研究,TP391.41
基于OpenCV的人脸检测方法研究,TP391.41
计算机辅助髋关节置换手术系统研究与开发,TP391.41
基于单目夜视图像的深度估计,TP391.41
基于中介真值程度度量的图像分割方法研究,TP391.41
基于图像处理的棉花成熟度判定技术的研究,TP391.41
基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
基于空间邻域词袋模型的图像标注技术,TP391.41
基于数字图像处理技术的路面裂缝检测算法研究,TP391.41
Web图像搜索中基于GPU的图像分割技术术究,TP391.41
基于改进的GVF主动轮廓模型的图像分割方法研究,TP391.41
心电特征提取及分类方法研究,TN911.7
多特征融合的视觉跟踪算法研究,TP391.41
基于主动轮廓模型的图像分割方法研究,TP391.41