学位论文 > 优秀研究生学位论文题录展示
基于K-means和神经网络算法的图像文字提取与识别
作 者: 张凯歌
导 师: 蒋慕蓉
学 校: 云南大学
专 业: 计算机系统结构
关键词: 文字提取 图像处理 神经网络 文字识别
分类号: TP391.43
类 型: 硕士论文
年 份: 2013年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着数字化技术、信息化技术以及多媒体技术的迅速发展,有大量的数字图像、遥感图像、广告图像、路标指示牌以及微博(web)中的图像充斥着我们的生活。而这些图像中包含了丰富的语义信息,是智能控制系统和信息检测与检索系统的重要处理对象。提取和识别这些图片中的内容对于人们的日常生活和工作有很大的帮助,也减少了人工劳动的工作量。虽然国内图像分割与识别技术在学术与工业应用上取得了一定的成绩,但是在实际应用中,计算机对图像文本信息的识别和理解能力仍然达不到人们的要求。文字提取与识别主要包括文字区域的检测、文本区域的分割、文本的提取和文本的识别等,由于在彩色图像中一些图像本身的分辨率较低、背景比较复杂、亮度影响以及位置、形状与颜色具有不确定性等,针对彩色图像中文字提取与识别的上述问题,本文采用了一种基于K-means聚类和神经网络的方法。首先分析图像的特征,并利用图像分析、图像分割、图像增强等技术检测图像中的文字区域,然后将文字区域从彩色图像中分割出来,进行小波差值放大,再利用k-means方法对彩色图像聚类得到单背景彩色文字图像,进行二值化和文字切分处理,最后再利用神经网络对文字进行识别。实验验证,该方法在一定程度上可有效解决复杂背景图像中文字识别的问题。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-11 1.1 研究背景 7 1.2 汉字识别的发展历程 7-8 1.3 国内外研究现状 8-9 1.3.1 国内研究现状 8-9 1.3.2 国外研究现状 9 1.4 本文的主要工作和论文结构 9-11 第二章 图像处理算法基础 11-19 2.1 图像预处理的基本算法 11-15 2.2 常用的彩色文字图像分割方法 15-19 第三章 利用K-means聚类方法进行图像文字提取与分割 19-35 3.1 图像文字版面分析 19-20 3.2 技术难点 20-21 3.2.1 文字提取的技术关键和难点 20-21 3.2.2 汉字识别的技术关键和难点 21 3.3 K-means方法原理 21-25 3.3.1 基本思想 22 3.3.2 算法分析 22-23 3.3.3 算法概要 23-24 3.3.4 求点群中心的算法 24-25 3.4 图像校正 25-28 3.4.1 基于文字行的倾斜校正方法 25 3.4.2 投影轮廓分析方法 25-27 3.4.3 聚类的方法 27 3.4.4 Hough变换的方法 27-28 3.5 文字切分 28-30 3.5.1 标准切分方法 28-29 3.5.2 基于多行的垂直投影法 29-30 3.5.3 本文的文字分割过程 30 3.6 利用K-means提取文字的步骤与实现 30-35 3.6.1 图像预处理过程 32 3.6.2 聚类处理 32-33 3.6.3 图层选取及优化 33-34 3.6.4 进行聚类后的文字切分 34-35 第四章 神经网络进行文字识别 35-41 4.1 常用的识别方法 35 4.2 神经网络原理 35-37 4.2.1 BP网络学习方法选择 37 4.2.2 BP神经网络识别原理 37 4.3 基本步骤与实现 37-39 4.3.1 实验基本步骤 38 4.3.2 实验实现 38-39 4.4 后处理 39-41 4.4.1 文字识别的后处理 39-40 4.4.2 处理失败的文字图像 40-41 第五章 文字识别实验系统的设计与实现 41-50 5.1 系统的总体结构 41-43 5.1.1 系统设计 41-42 5.1.2 演示系统系统界面设计 42-43 5.2 演示系统模块设计流程 43-47 5.2.1 图像处理模块 43-45 5.2.2 人工处理模块 45 5.2.3 聚类处理模块 45-46 5.2.4 二值化倾斜校正模块 46 5.2.5 文字分割模块 46-47 5.2.6 文字识别模块 47 5.3 实验系统的运行效果 47-48 5.4 实验结果及分析 48-49 5.4.1 简单背景图像文字 48 5.4.2 复杂背景图像文字 48-49 5.5 实验效果分析 49-50 第六章 总结和展望 50-52 总结 50 展望 50-52 攻读硕士期间公开发表论文及专利 52-53 致谢 53-54 参考文献 54-56
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 调频式电容位移传感器高速测频与非线性校正技术研究,TH822
- 基于CCD图像传感器的温度测量技术研究,TH811
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 雾天或背光条件下图像清晰化算法研究及硬件实现,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 模糊控制、神经网络在平面二级倒立摆中的应用,TP273.4
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 机械臂视觉伺服系统的研究,TP242.6
- 市级旅游用地规划环境影响评价研究,X820.3
- 珠三角地区高性能混凝土配合比智能化系统,TU528
- 半成型结构在休闲女装中的应用,TS941.2
- 大学生综合素质测评研究,G645.5
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 基于机器视觉的光纤几何参数检测研究,TN253
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 海上平台消防系统研究,U698.4
- 高速公路拆迁民众生存系统评价研究,D523
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|