学位论文 > 优秀研究生学位论文题录展示
视频文字识别技术的研究及应用
作 者: 李伟
导 师: 王俊义
学 校: 内蒙古大学
专 业: 计算机科学与技术
关键词: 文字识别 文字跟踪 文字分割 K均值聚类 多BP神经网络
分类号: TP391.43
类 型: 硕士论文
年 份: 2010年
下 载: 230次
引 用: 0次
阅 读: 论文下载
内容摘要
视频中的文字信息在很多应用(如视频标注和检索)中具有重要价值,提取视频中的文字信息是我们迫切需要解决的问题。本文的视频文字识别系统主要包括图像预处理、文字区域定位、跟踪、二值化、字符分割、字符识别等模块。在字符分割方面,我们引进了字符间隙宽度序列,字符宽度序列,字符间隙方差,字符宽度方差,字符间隙离差,字符宽度离差和填充度的概念,可以较为准确地分割字符。在文字跟踪方面,我们引入了边缘密度、观察窗和相似度的概念,构建了以这些概念为基础的寻找文字起始和终止帧的算法。在文字识别方面,我们提出了在0°、45°、90°、135。方向上投影以及结合经过小波分解和分形计算的环形投影作为图像的特征。分类采用K均值聚类和多BP神经网络相结合的二级分类方法。最后,针对提出的算法进行了详细而全面的实验,实验表明本文的算法具有较高性能,并在此基础上开发了可应用的视频汉字识别系统。
|
全文目录
摘要 4-5 ABSTRACT 5-7 目录 7-10 第一章 绪论 10-16 1.1 研究背景 10-11 1.2 国内外研究动态 11-14 1.2.1 文本帧检测 11 1.2.2 文本帧定位 11-13 1.2.3 文本跟踪 13 1.2.4 分割和增强 13-14 1.2.5 文字识别 14 1.3 本文的工作与组织 14-16 第二章 视频及图像相关知识 16-26 2.1 视频相关知识 16-17 2.2 图像基础知识 17-18 2.2.1 数字图像的表示 17 2.2.2 BMP文件格式 17-18 2.3 图像预处理 18-26 2.3.1 图像灰度化 18-19 2.3.2 图像二值化 19-23 2.3.3 图像边缘检测 23-26 第三章 视频文字跟踪及定位 26-38 3.1 引言 26 3.2 单帧图像文字区域粗定位 26-29 3.2.1 文字区域水平定位 27-28 3.2.2 文字区域垂直定位 28-29 3.3 视频文字区域跟踪 29-30 3.4 单帧图像文字分割 30-32 3.5 字符图像归一化 32-34 3.6 实验结果及分析 34-37 3.6.1 文本图像粗定位实验结果及分析 34-36 3.6.2 文字区域跟踪实验结果及分析 36 3.6.3 文字图像字符分割实验结果及分析 36-37 3.7 小结 37-38 第四章 视频文字识别 38-67 4.1 引言 38 4.2 常用汉字训练样本库 38-39 4.2.1 国标码简介 38-39 4.2.2 一级汉字重新编码 39 4.2.3 产生常用汉字样本库算法 39 4.3 小波分析 39-45 4.3.1 引言 39-40 4.3.2 多分辨率分析 40-42 4.3.3 小波的性质 42-44 4.3.4 Mallat算法 44-45 4.4 分形理论 45-47 4.4.1 引言 45-46 4.4.2 分形盒维数 46-47 4.5 特征提取 47-53 4.5.1 引言 47-48 4.5.2 本文采用图像特征的计算方法 48-53 4.6 K均值聚类 53-54 4.7 BP(ERROR BACK PROPAGATION)神经网络模型 54-59 4.7.1 引言 54-55 4.7.2 BP神经网络算法推导 55-58 4.7.3 BP神经网络存在的问题及解决方法 58 4.7.4 标准BP神经网络算法 58-59 4.8 本文分类器的设计 59-65 4.8.1 引言 59 4.8.2 多BP神经网络原理 59-65 4.9 实验结果及分析 65-67 第五章 视频文字识别系统设计与实现 67-74 5.1 总体目标 67 5.2 系统框架 67-68 5.3 系统设计 68-73 5.3.1 视频文字识别模块 68-69 5.3.2 字库产生模块 69-71 5.3.3 多BP神经网络训练模块 71-72 5.3.4 图像预处理模块 72 5.3.5 直方图分析模块 72-73 5.4 小结 73-74 第六章 结束语 74-76 6.1 全文总结 74-75 6.2 工作展望 75-76 参考文献 76-79 致谢 79-80 攻读硕士学位期间发表的学术论文 80
|
相似论文
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 改进的模糊C均值聚类算法及其应用,O159
- 模糊C均值聚类算法的相关问题研究,TP311.13
- 基于正则化方法的模糊C-均值聚类算法的研究,TP311.13
- 静态图像中文字提取关键技术研究,TP391.41
- 汽车轮胎表面标识识别系统的设计与研究,TP391.41
- 企业邮件监管系统的设计与实现,TP393.098
- 脱机手写女书文字识别技术研究,TP391.41
- 复杂背景图像中的文字提取技术研究,TP391.41
- 道路交通事故现场图绘制系统研究,TP391.41
- 基于高阶神经网络的文字识别算法研究,TP391.43
- 视频图像中的文字提取技术研究,TP391.41
- 新闻视频字幕的自动提取和识别,TP391.41
- 轮胎标识自动识别系统的研究与设计,TP391.41
- 车牌识别技术的改进研究与实现,TP391.41
- 生产线复杂光照场景钢坯目标分割方法研究及应用,TP391.41
- 基于T-S模糊神经网络的CFB-FGD过程脱硫效率的预报研究,X701.3
- 基于模糊综合评判入侵检测系统的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|