学位论文 > 优秀研究生学位论文题录展示
中文科技文档中数学公式的抽取
作 者: 桑伯男
导 师: 吴微
学 校: 大连理工大学
专 业: 计算数学
关键词: 文档图像分析 公式抽取 中文文档环境 连通体标记 公式分布局部性
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 54次
引 用: 3次
阅 读: 论文下载
内容摘要
随着计算机和互联网的发展,越来越多的资料被以文档图像的形式存储到计算机上。通过网络进行信息的存储、查找和传播也越来越成为当前信息流通的主要渠道。如何快速、高效地将这些文档图像转化为可编辑的格式成为急需解决的问题,文档图像分析技术作为一个新的研究领域应运而生。光学字符识别(OCR)是文档图像分析的核心技术。现有的OCR系统对打印字符已经能做到很高的识别率。而数学公式由于其存在二维结构,单纯通过扩充识别系统字库无法完全记录公式图像所含全部信息。如何将打印科技文档中的公式进行定位、识别和重组,依然是一个正在研究中的课题。虽然已经提出了多种算法,但这些算法大部分是针对英文环境下的文档。由于中英文在字库技术,字符连通体构成上的诸多不同,简单地将英文环境下算法移植到中文环境下会产生大量错误,且没有利用中文文档的特点,是不可取的。本文首先在绪论中介绍了文档图像分析技术,以及模式识别和神经网络等相关领域的背景知识。在定位数学公式的时候,本文给出的新算法需要对数学符号进行识别。第二章主要介绍了利用Zernike距提取字符的特征,由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别的技术。第三章首先回顾了当前一些应用于英文环境中的公式定位算法,提出了这些算法在应用于中文科技文当时会出现的问题,讨论了标记连通体这一当前文档分析技术中非常依赖的技术。并对中文字符的特点,中文文档排版的特点,人类阅读方式,及科技文档中普遍存在的公式分布局部性进行了讨论。在此基础上,本文提出了一种新的算法,该算法采用输入框组并行的读入目标,并判定其是否是规则汉字,从而规避了标记连通体步骤。并且利用了公式分布的局部性,对不同密度采用速度不同的算法,从而提高了整体公式定位速度。对于算法中遇到的各种具体问题,包括输入框标准的确定,汉字的确认,排版微调造成的所占空间的小差异等等,都给出了具体的解决方法。在本文的最后部分,分析了系统中仍然存在的问题,并讨论了新系统未来的扩展方向。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-23 1.1 文档图像分析 9-11 1.1.1 文档图像分析概述 9-10 1.1.2 文档图像分析设计的相关技术 10-11 1.2 模式识别 11-15 1.2.1 模式识别基本概念 11-12 1.2.2 模式识别几种主要方法的比较 12-14 1.2.3 神经网络方法解决模式识别问题的基本步骤 14-15 1.3 人工神经网络 15-20 1.3.1 神经网络的分类 16-17 1.3.2 神经网络的特性 17-18 1.3.3 神经网络的学习方式和学习规则 18-20 1.4 本文的主要工作 20-23 2 基于人工神经网络的数学公式符号的识别 23-31 2.1 BP神经网络 23-26 2.1.1 BP神经网络的结构 23-24 2.1.2 BP神经网络的权值更新 24-26 2.2 用Zernike矩进行特征提取 26-28 2.3 数学符号的识别 28-31 3 中文环境中数学公式的抽取 31-43 3.1 该领域研究概况及相关问题 31-34 3.1.1 现有算法介绍 31-32 3.1.2 标记连通体的讨论 32 3.1.3 对人类阅读方式的借鉴 32-33 3.1.4 公式分布局部性及中文科技文档的特性 33-34 3.2 公式抽取新算法的特点 34-37 3.2.1 规避画连通体步骤 34-35 3.2.2 并行读入字符 35 3.2.3 将公式定位过程分为三种状态 35-37 3.3 详细步骤 37-40 3.3.1 获取标准字高heightStd及标准行空隙heightGapStd 37 3.3.2 获取标准字宽widthStd及标准字空隙widthGapStd 37-38 3.3.3 通过投影数据抽取独立公式行 38 3.3.4 汉字的确认 38 3.3.5 整体算法流程 38-40 3.4 数学公式定位试验 40-43 结论 43-45 参考文献 45-49 攻读硕士学位期间学术论文完成情况 49-51 致谢 51-53
|
相似论文
- 印刷体数学公式抽取方法的研究,TP391.41
- 基本数学公式识别技术的研究,TP391.4
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|