学位论文 > 优秀研究生学位论文题录展示

中文印刷体文档中的数学公式识别

作 者: 高天孚
导 师: 王科俊
学 校: 哈尔滨工程大学
专 业: 模式识别与智能系统
关键词: 数学公式识别 数学公式字符定位 字符识别
分类号: TP391.4
类 型: 硕士论文
年 份: 2005年
下 载: 165次
引 用: 9次
阅 读: 论文下载
 

内容摘要


近年来随着Internet的普及以及互联网用户的不断增多,人们更趋向于利用这个传播渠道去发布和交换信息。数字图书馆和远程学习随着互联网的发展而成为研究的热点,实现上述思想需要一种新的有效方法把已存的书面文档转换成相应的电子文档以便于用计算机处理并在网上传播。广大科技工作者所阅读的科技文献中含有大量的数学公式,由于数学公式的复杂性,现有的OCR系统不能完全正确识别科技文献中的数学公式。为了方便读者和提高文献的利用率开发能够识别数学公式字符的OCR系统具有很大现实意义。 本课题研究的是印刷体中文文档中的数学公式识别问题。数学公式识别可分为数学公式字符的分割定位与识别两部分。由于字符识别技术已经很成熟了,我们只要把文档中数学公式字符的位置确定下来,结合现有的技术就能解决数学公式识别问题。 数学公式字符的定位采用的是一种统计学方法。首先把扫描进计算机的图片文档保存为二值化bmp文件,接着对文档进行行提取,然后计算这一行文本字符宽度的2阶中心矩。利用纯文本行和含有数学公式文本行之间矩值的差异就可以判断这行文本含有数学公式。当文本内容相同时,由于采用字体的大小不同会对矩值产生影响,本文引入参数对矩值进行修正,并建立一个统一标准以消除这个影响。 当判断出一行文本内含有数学公式时,利用印刷体汉字字体的大小、长宽比、高度和宽度等这些基本特征与数学公式字符相应特

全文目录


第1章 绪论  10-24
  1.1 课题研究的目的和意义  10-11
  1.2 国内外发展现状  11-20
  1.3 公式识别的难点  20-21
  1.4 论文完成的工作  21-24
第2章 数学公式的定位分割  24-48
  2.1 样本文本特征库的建立  24-31
    2.1.1 利用水平投影法进行行提取  24-25
    2.1.2 竖直投影获得汉字在X轴上坐标  25-26
    2.1.3 汉字位置坐标的确定  26-30
    2.1.4 样本库中统计数据的获取  30-31
  2.2 数学公式的定位分割  31-47
    2.2.1 数学公式行提取中出现的问题和解决方法  31-35
    2.2.2 一行文本中是否含有数学公式的判断方法  35-38
    2.2.3 单独成行的数学公式的定位分割  38-40
    2.2.4 内嵌于文本的数学公式的定位分割  40-45
    2.2.5 数学公式定位统计数据分析  45-47
  2.3 本章小结  47-48
第3章 数学字符标准特征库的建立  48-57
  3.1 数学字符的搜集与整理  48-49
  3.2 字符的大小归一化  49-51
  3.3 字符的细化  51-54
  3.4 字符的特征提取  54-56
    3.4.1 网格特征的提取  55
    3.4.2 交叉点特征的提取  55-56
  3.5 本章小结  56-57
第4章 数学字符识别  57-64
  4.1 本文采用字符识别方法简介  57-58
  4.2 字符识别  58-62
    4.2.1 字符的粗分类  58
    4.2.2 字符的模板匹配  58-62
  4.3 数学字符识别结果的统计分析  62-63
  4.4 本章小结  63-64
结论  64-68
参考文献  68-74
攻读硕士学位期间发表的论文和取得的科研成果  74-75
致谢  75

相似论文

  1. 基于PowerPC架构的车牌识别算法研究,TP391.41
  2. 基于车牌识别技术的智能交通系统的设计与实现,TP391.41
  3. 基于SVM的车牌字符识别算法研究与实现,TP391.41
  4. 一种基于梯度模板特征的车牌识别算法,TP391.41
  5. 基于与或图的车牌检测与识别,TP391.41
  6. 基于特征的纸币号码识别的研究,TP391.41
  7. 基于数字图像处理的电能表图像识别技术研究与实现,TP391.41
  8. 汽车牌照自动识别方法的研究,TP391.41
  9. 票据图像分类的技术研究,TP391.41
  10. 车牌识别系统及其硬件实现的研究,TP391.41
  11. 基于向量线段的数学公式中特殊字符的识别,TP391.41
  12. 车牌字符自动识别方法的研究,TP391.41
  13. 基于图像处理的车牌识别算法研究与仿真,TP391.41
  14. 基于图像处理的印刷体数字识别技术研究,TP391.41
  15. 数字图像处理在车辆牌照识别中的应用研究,TP391.41
  16. 遗传神经网络在车牌识别系统中研究及应用,TP391.41
  17. 基于改进抠图算法的模糊车牌识别新方法,TP391.41
  18. 复杂背景图像中的文字提取技术研究,TP391.41
  19. 医疗仪器中的数字识别技术研究,TP391.41
  20. 印刷体数学公式特殊结构的分析与重构,TP391.4
  21. 基于支撑笔画的视觉文档图像透视失真校正,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com