学位论文 > 优秀研究生学位论文题录展示

印刷体中文文档中表格和汉字的识别研究

作 者: 于伯峰
导 师: 王科俊
学 校: 哈尔滨工程大学
专 业: 模式识别与智能系统
关键词: 预处理 倾斜校正 汉字识别 表格识别
分类号: TP391.41
类 型: 硕士论文
年 份: 2011年
下 载: 55次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息化时代的到来,相互交流的信息内容越来越丰富,一个中文信息文档中不仅会含有中文、英文、各种各样的公式以及表格和图形图像等内容。因此,快速而准确的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文档的处理有着重要的实用价值和理论意义。本课题在已有的公式识别印刷体中文文档识别系统基础上,对该系统进行了功能上的完善和补充。主要工作如下:首先,对扫描得到原始文档图像进行预处理。在进行图像预处理过程中的二值化时,我们做了基于直方图谷点门限分割法和基于Ostu算法的详细的分析的和比较,最终由于Ostu算法的效果和运算速度较优,在此应用的是Ostu算法。其次,待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像应用了基于游程的倾斜表格图像的检测和反变换的方法进行旋转,实现了对表格文档图像的倾斜角检测及校正。对于角度较小(-5°-5°)的情况,运用上述方法能达到快速倾斜校正的目的,取得更好的效果。然后,是对表格的检测和提取。在这里应用的是基于数学形态学变换的表格检测和提取算法,并对提取的表格线进行细化和直线拟合最终实现了对表格的识别。通过实验得出本文采用的方法对表格的检测和提取的效果比较理想。最后,是汉字识别的部分,采用一种多特征提取并结合多分类器集成的方法对汉字的字符识别,在对汉字进行细化和归一化的基础上,并把一级汉字字库扩展为二级汉字模板字库。本文主要针对比较正式、规范的书籍、报刊和杂志的图像进行采集和识别。所研究的主要内容是在以往同课题组同学的基础上对印刷体中文文档识别系统的功能进行完善。重点是实现了对表格的检测和提取,并扩充了相应的汉字库。与成熟的OCR技术相比,解决了无法实现自动处理印刷体文档中的表格识别问题,是含有识别公式技术的印刷体文档识别系统,它提高了原始文档的利用率,并方便了公式的录用、查询等,对科技的发展和传播有深远意义。

全文目录


摘要  5-6
ABSTRACT  6-10
第1章 绪论  10-14
  1.1 课题研究的目的和意义  10
  1.2 印刷体文档的汉字识别技术  10-11
    1.2.1 汉字识别分类的简介  10-11
    1.2.2 印刷体汉字识别的历程  11
  1.3 印刷体中文文档的表格识别  11-13
    1.3.1 表格识别现状  11-12
    1.3.2 表格识别过程  12-13
  1.4 本文的研究内容  13-14
第2章 图像的预处理  14-21
  2.1 图像平滑去噪  14-15
  2.2 图像的二值化  15-20
    2.2.1 Ridler和Calvard的聚类方法(RC方法)  15-16
    2.2.2 Saunola和Pietaksinen的局部自适应阈值选取方法  16-17
    2.2.3 基于直方图谷点阈值分割方法  17
    2.2.4 最大类间方差法  17-18
    2.2.5 最大熵法  18-20
  2.3 本章小结  20-21
第3章 表格的倾斜校正  21-31
  3.1 倾角检测常用的方法  21-24
    3.1.1 基于霍夫变换的倾斜角度检测  21-22
    3.1.2 基于连通区域最小外接矩形的倾斜角度检测算法  22-23
    3.1.3 其他一些倾斜角度检测算法  23
    3.1.4 本文倾斜角度检测应用的方法  23-24
  3.2 常用的图像的旋转方法  24-30
    3.2.1 直角坐标系中的图像旋转  25-27
    3.2.2 极坐标变换的方法  27-28
    3.2.3 反变换方法  28-30
  3.3 实验结果  30
  3.4 本章小结  30-31
第4章 印刷体表格识别  31-46
  4.1 表格识别的关键技术  31-38
    4.1.1 预处理  31-33
    4.1.2 表格线的检测  33-36
    4.1.3 表格单元的提取  36-38
  4.2 本文采用的表格线的检测和提取的方法  38-44
    4.2.1 数学形态学变换的基本知识  38-40
    4.2.2 基于数学形态学变换的表格检测和提取算法  40-44
    4.2.3 本文系统对表格的处理  44
  4.3 实验结果  44-45
  4.4 本章小结  45-46
第5章 印刷体汉字识别  46-60
  5.1 汉字识别的分类  46
  5.2 汉字识别存在的困难  46-48
  5.3 汉字识别的方法  48-52
    5.3.1 统计模式识别  48-49
    5.3.2 结构模式识别  49-50
    5.3.3 统计模式识别与结构模式识别的结合  50
    5.3.4 人工神经网络  50-51
    5.3.5 支持向量机  51-52
    5.3.6 模仿人类视觉的方法  52
  5.4 汉字识别的特征  52-54
  5.5 本系统汉字识别的设计研究  54-59
    5.5.1 文本区域的处理  54-55
    5.5.2 多特征提取建立汉字模板库  55-56
    5.5.3 多分类器集成  56-58
    5.5.4 实验结果  58-59
  5.6 本章小结  59-60
结论  60-62
参考文献  62-67
攻读硕士学位期间发表的论文和取得的科研成果  67-68
致谢  68

相似论文

  1. 舌图像中瘀斑瘀点检测技术研究,TP391.41
  2. Cu2+/Co2+催化漂白桉木浆工艺与机理研究,TS745
  3. 离子液体预处理纤维素及再生纤维素水解研究,TQ352.1
  4. 玉米秸秆和牛粪混合厌氧发酵工艺优化研究,S216.4
  5. 红外图像目标识别及跟踪技术研究,TP391.41
  6. 基于粗糙集的城市区域交通绿时控制系统研究,TP18
  7. 化学与生物成因施氏矿物的矿物学特征及其对水中As(Ⅲ)吸附去除效果的研究,X703
  8. 内质网应激预处理提高肾组织对缺血再灌注损伤耐受性的作用及机制,R692.5
  9. 基于高斯过程的在线建模问题研究,TP181
  10. 基于web的通信原理教学信息管理与评估系统的设计与实现,TP311.52
  11. 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
  12. 基于粗糙集理论的决策树分类算法与应用研究,TP18
  13. 图片检索在网络敏感信息实时预警系统中的应用,TP391.41
  14. 地震图数字化中波形校正与跟踪方法的研究,TP391.41
  15. 道路交通安全微观评价系统研究,U491
  16. 远隔缺血预处理和远隔缺血后处理在成人心脏瓣膜置换术中的心肌保护作用,R654.2
  17. 基于Web使用挖掘的网站优化研究,TP393.092
  18. 指纹图像预处理与识别算法研究,TP391.41
  19. 实时车牌分割与识别技术研究,TP391.41
  20. 车牌字符自动识别方法的研究,TP391.41
  21. 担子菌连续开放预处理玉米秸秆转化乙醇的工艺研究,TQ223.122

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com