学位论文 > 优秀研究生学位论文题录展示

中文科技文档中数学公式的抽取

作　者: 桑伯男
导　师: 吴微
学　校: 大连理工大学
专　业: 计算数学
关键词: 文档图像分析公式抽取中文文档环境连通体标记公式分布局部性
分类号: TP391.1
类　型: 硕士论文
年　份: 2007年
下　载: 54次
引　用: 3次
阅　读: 论文下载

内容摘要

随着计算机和互联网的发展，越来越多的资料被以文档图像的形式存储到计算机上。通过网络进行信息的存储、查找和传播也越来越成为当前信息流通的主要渠道。如何快速、高效地将这些文档图像转化为可编辑的格式成为急需解决的问题，文档图像分析技术作为一个新的研究领域应运而生。光学字符识别(OCR)是文档图像分析的核心技术。现有的OCR系统对打印字符已经能做到很高的识别率。而数学公式由于其存在二维结构，单纯通过扩充识别系统字库无法完全记录公式图像所含全部信息。如何将打印科技文档中的公式进行定位、识别和重组，依然是一个正在研究中的课题。虽然已经提出了多种算法，但这些算法大部分是针对英文环境下的文档。由于中英文在字库技术，字符连通体构成上的诸多不同，简单地将英文环境下算法移植到中文环境下会产生大量错误，且没有利用中文文档的特点，是不可取的。本文首先在绪论中介绍了文档图像分析技术，以及模式识别和神经网络等相关领域的背景知识。在定位数学公式的时候，本文给出的新算法需要对数学符号进行识别。第二章主要介绍了利用Zernike距提取字符的特征，由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别的技术。第三章首先回顾了当前一些应用于英文环境中的公式定位算法，提出了这些算法在应用于中文科技文当时会出现的问题，讨论了标记连通体这一当前文档分析技术中非常依赖的技术。并对中文字符的特点，中文文档排版的特点，人类阅读方式，及科技文档中普遍存在的公式分布局部性进行了讨论。在此基础上，本文提出了一种新的算法，该算法采用输入框组并行的读入目标，并判定其是否是规则汉字，从而规避了标记连通体步骤。并且利用了公式分布的局部性，对不同密度采用速度不同的算法，从而提高了整体公式定位速度。对于算法中遇到的各种具体问题，包括输入框标准的确定，汉字的确认，排版微调造成的所占空间的小差异等等，都给出了具体的解决方法。在本文的最后部分，分析了系统中仍然存在的问题，并讨论了新系统未来的扩展方向。

全文目录

摘要  4-5
Abstract  5-9
1 绪论  9-23
  1.1 文档图像分析  9-11
    1.1.1 文档图像分析概述  9-10
    1.1.2 文档图像分析设计的相关技术  10-11
  1.2 模式识别  11-15
    1.2.1 模式识别基本概念  11-12
    1.2.2 模式识别几种主要方法的比较  12-14
    1.2.3 神经网络方法解决模式识别问题的基本步骤  14-15
  1.3 人工神经网络  15-20
    1.3.1 神经网络的分类  16-17
    1.3.2 神经网络的特性  17-18
    1.3.3 神经网络的学习方式和学习规则  18-20
  1.4 本文的主要工作  20-23
2 基于人工神经网络的数学公式符号的识别  23-31
  2.1 BP神经网络  23-26
    2.1.1 BP神经网络的结构  23-24
    2.1.2 BP神经网络的权值更新  24-26
  2.2 用Zernike矩进行特征提取  26-28
  2.3 数学符号的识别  28-31
3 中文环境中数学公式的抽取  31-43
  3.1 该领域研究概况及相关问题  31-34
    3.1.1 现有算法介绍  31-32
    3.1.2 标记连通体的讨论  32
    3.1.3 对人类阅读方式的借鉴  32-33
    3.1.4 公式分布局部性及中文科技文档的特性  33-34
  3.2 公式抽取新算法的特点  34-37
    3.2.1 规避画连通体步骤  34-35
    3.2.2 并行读入字符  35
    3.2.3 将公式定位过程分为三种状态  35-37
  3.3 详细步骤  37-40
    3.3.1 获取标准字高heightStd及标准行空隙heightGapStd  37
    3.3.2 获取标准字宽widthStd及标准字空隙widthGapStd  37-38
    3.3.3 通过投影数据抽取独立公式行  38
    3.3.4 汉字的确认  38
    3.3.5 整体算法流程  38-40
  3.4 数学公式定位试验  40-43
结论  43-45
参考文献  45-49
攻读硕士学位期间学术论文完成情况  49-51
致谢  51-53

中文科技文档中数学公式的抽取

内容摘要

全文目录

相似论文