学位论文 > 优秀研究生学位论文题录展示

印刷体中文文档中表格和汉字的识别研究

作　者: 于伯峰
导　师: 王科俊
学　校: 哈尔滨工程大学
专　业: 模式识别与智能系统
关键词: 预处理倾斜校正汉字识别表格识别
分类号: TP391.41
类　型: 硕士论文
年　份: 2011年
下　载: 55次
引　用: 0次
阅　读: 论文下载

内容摘要

随着信息化时代的到来,相互交流的信息内容越来越丰富,一个中文信息文档中不仅会含有中文、英文、各种各样的公式以及表格和图形图像等内容。因此,快速而准确的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文档的处理有着重要的实用价值和理论意义。本课题在已有的公式识别印刷体中文文档识别系统基础上,对该系统进行了功能上的完善和补充。主要工作如下：首先,对扫描得到原始文档图像进行预处理。在进行图像预处理过程中的二值化时,我们做了基于直方图谷点门限分割法和基于Ostu算法的详细的分析的和比较,最终由于Ostu算法的效果和运算速度较优,在此应用的是Ostu算法。其次,待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像应用了基于游程的倾斜表格图像的检测和反变换的方法进行旋转,实现了对表格文档图像的倾斜角检测及校正。对于角度较小(-5°-5°)的情况,运用上述方法能达到快速倾斜校正的目的,取得更好的效果。然后,是对表格的检测和提取。在这里应用的是基于数学形态学变换的表格检测和提取算法,并对提取的表格线进行细化和直线拟合最终实现了对表格的识别。通过实验得出本文采用的方法对表格的检测和提取的效果比较理想。最后,是汉字识别的部分,采用一种多特征提取并结合多分类器集成的方法对汉字的字符识别,在对汉字进行细化和归一化的基础上,并把一级汉字字库扩展为二级汉字模板字库。本文主要针对比较正式、规范的书籍、报刊和杂志的图像进行采集和识别。所研究的主要内容是在以往同课题组同学的基础上对印刷体中文文档识别系统的功能进行完善。重点是实现了对表格的检测和提取,并扩充了相应的汉字库。与成熟的OCR技术相比,解决了无法实现自动处理印刷体文档中的表格识别问题,是含有识别公式技术的印刷体文档识别系统,它提高了原始文档的利用率,并方便了公式的录用、查询等,对科技的发展和传播有深远意义。

全文目录

摘要  5-6
ABSTRACT  6-10
第1章绪论  10-14
  1.1 课题研究的目的和意义  10
  1.2 印刷体文档的汉字识别技术  10-11
    1.2.1 汉字识别分类的简介  10-11
    1.2.2 印刷体汉字识别的历程  11
  1.3 印刷体中文文档的表格识别  11-13
    1.3.1 表格识别现状  11-12
    1.3.2 表格识别过程  12-13
  1.4 本文的研究内容  13-14
第2章图像的预处理  14-21
  2.1 图像平滑去噪  14-15
  2.2 图像的二值化  15-20
    2.2.1 Ridler和Calvard的聚类方法(RC方法)  15-16
    2.2.2 Saunola和Pietaksinen的局部自适应阈值选取方法  16-17
    2.2.3 基于直方图谷点阈值分割方法  17
    2.2.4 最大类间方差法  17-18
    2.2.5 最大熵法  18-20
  2.3 本章小结  20-21
第3章表格的倾斜校正  21-31
  3.1 倾角检测常用的方法  21-24
    3.1.1 基于霍夫变换的倾斜角度检测  21-22
    3.1.2 基于连通区域最小外接矩形的倾斜角度检测算法  22-23
    3.1.3 其他一些倾斜角度检测算法  23
    3.1.4 本文倾斜角度检测应用的方法  23-24
  3.2 常用的图像的旋转方法  24-30
    3.2.1 直角坐标系中的图像旋转  25-27
    3.2.2 极坐标变换的方法  27-28
    3.2.3 反变换方法  28-30
  3.3 实验结果  30
  3.4 本章小结  30-31
第4章印刷体表格识别  31-46
  4.1 表格识别的关键技术  31-38
    4.1.1 预处理  31-33
    4.1.2 表格线的检测  33-36
    4.1.3 表格单元的提取  36-38
  4.2 本文采用的表格线的检测和提取的方法  38-44
    4.2.1 数学形态学变换的基本知识  38-40
    4.2.2 基于数学形态学变换的表格检测和提取算法  40-44
    4.2.3 本文系统对表格的处理  44
  4.3 实验结果  44-45
  4.4 本章小结  45-46
第5章印刷体汉字识别  46-60
  5.1 汉字识别的分类  46
  5.2 汉字识别存在的困难  46-48
  5.3 汉字识别的方法  48-52
    5.3.1 统计模式识别  48-49
    5.3.2 结构模式识别  49-50
    5.3.3 统计模式识别与结构模式识别的结合  50
    5.3.4 人工神经网络  50-51
    5.3.5 支持向量机  51-52
    5.3.6 模仿人类视觉的方法  52
  5.4 汉字识别的特征  52-54
  5.5 本系统汉字识别的设计研究  54-59
    5.5.1 文本区域的处理  54-55
    5.5.2 多特征提取建立汉字模板库  55-56
    5.5.3 多分类器集成  56-58
    5.5.4 实验结果  58-59
  5.6 本章小结  59-60
结论  60-62
参考文献  62-67
攻读硕士学位期间发表的论文和取得的科研成果  67-68
致谢  68

印刷体中文文档中表格和汉字的识别研究

内容摘要

全文目录

相似论文