学位论文 > 优秀研究生学位论文题录展示

中文科技文档中数学公式的抽取

作 者: 桑伯男
导 师: 吴微
学 校: 大连理工大学
专 业: 计算数学
关键词: 文档图像分析 公式抽取 中文文档环境 连通体标记 公式分布局部性
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 54次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着计算机和互联网的发展,越来越多的资料被以文档图像的形式存储到计算机上。通过网络进行信息的存储、查找和传播也越来越成为当前信息流通的主要渠道。如何快速、高效地将这些文档图像转化为可编辑的格式成为急需解决的问题,文档图像分析技术作为一个新的研究领域应运而生。光学字符识别(OCR)是文档图像分析的核心技术。现有的OCR系统对打印字符已经能做到很高的识别率。而数学公式由于其存在二维结构,单纯通过扩充识别系统字库无法完全记录公式图像所含全部信息。如何将打印科技文档中的公式进行定位、识别和重组,依然是一个正在研究中的课题。虽然已经提出了多种算法,但这些算法大部分是针对英文环境下的文档。由于中英文在字库技术,字符连通体构成上的诸多不同,简单地将英文环境下算法移植到中文环境下会产生大量错误,且没有利用中文文档的特点,是不可取的。本文首先在绪论中介绍了文档图像分析技术,以及模式识别和神经网络等相关领域的背景知识。在定位数学公式的时候,本文给出的新算法需要对数学符号进行识别。第二章主要介绍了利用Zernike距提取字符的特征,由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别的技术。第三章首先回顾了当前一些应用于英文环境中的公式定位算法,提出了这些算法在应用于中文科技文当时会出现的问题,讨论了标记连通体这一当前文档分析技术中非常依赖的技术。并对中文字符的特点,中文文档排版的特点,人类阅读方式,及科技文档中普遍存在的公式分布局部性进行了讨论。在此基础上,本文提出了一种新的算法,该算法采用输入框组并行的读入目标,并判定其是否是规则汉字,从而规避了标记连通体步骤。并且利用了公式分布的局部性,对不同密度采用速度不同的算法,从而提高了整体公式定位速度。对于算法中遇到的各种具体问题,包括输入框标准的确定,汉字的确认,排版微调造成的所占空间的小差异等等,都给出了具体的解决方法。在本文的最后部分,分析了系统中仍然存在的问题,并讨论了新系统未来的扩展方向。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-23
  1.1 文档图像分析  9-11
    1.1.1 文档图像分析概述  9-10
    1.1.2 文档图像分析设计的相关技术  10-11
  1.2 模式识别  11-15
    1.2.1 模式识别基本概念  11-12
    1.2.2 模式识别几种主要方法的比较  12-14
    1.2.3 神经网络方法解决模式识别问题的基本步骤  14-15
  1.3 人工神经网络  15-20
    1.3.1 神经网络的分类  16-17
    1.3.2 神经网络的特性  17-18
    1.3.3 神经网络的学习方式和学习规则  18-20
  1.4 本文的主要工作  20-23
2 基于人工神经网络的数学公式符号的识别  23-31
  2.1 BP神经网络  23-26
    2.1.1 BP神经网络的结构  23-24
    2.1.2 BP神经网络的权值更新  24-26
  2.2 用Zernike矩进行特征提取  26-28
  2.3 数学符号的识别  28-31
3 中文环境中数学公式的抽取  31-43
  3.1 该领域研究概况及相关问题  31-34
    3.1.1 现有算法介绍  31-32
    3.1.2 标记连通体的讨论  32
    3.1.3 对人类阅读方式的借鉴  32-33
    3.1.4 公式分布局部性及中文科技文档的特性  33-34
  3.2 公式抽取新算法的特点  34-37
    3.2.1 规避画连通体步骤  34-35
    3.2.2 并行读入字符  35
    3.2.3 将公式定位过程分为三种状态  35-37
  3.3 详细步骤  37-40
    3.3.1 获取标准字高heightStd及标准行空隙heightGapStd  37
    3.3.2 获取标准字宽widthStd及标准字空隙widthGapStd  37-38
    3.3.3 通过投影数据抽取独立公式行  38
    3.3.4 汉字的确认  38
    3.3.5 整体算法流程  38-40
  3.4 数学公式定位试验  40-43
结论  43-45
参考文献  45-49
攻读硕士学位期间学术论文完成情况  49-51
致谢  51-53

相似论文

  1. 印刷体数学公式抽取方法的研究,TP391.41
  2. 基本数学公式识别技术的研究,TP391.4
  3. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  4. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  5. 基于FPGA的高速图像预处理技术的研究,TP391.41
  6. 2D人脸模板保护算法研究,TP391.41
  7. 导弹虚拟试验可视化技术研究,TP391.9
  8. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  9. 图像拼接技术研究,TP391.41
  10. 高效精确字符串匹配算法的研究与实现,TP391.41
  11. 基于词义及语义分析的问答技术研究,TP391.1
  12. 基于三维重建的焊点质量分类方法研究,TP391.41
  13. 舌体特征的提取及融合分类方法研究,TP391.41
  14. 统计机器翻译中结构转换技术的研究,TP391.2
  15. 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
  16. 基于句法特征的代词消解方法研究,TP391.1
  17. 空中目标与背景的红外图像仿真技术研究,TP391.41
  18. 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
  19. 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
  20. 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
  21. 双传感器图像联合目标检测及系统实现研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com