印刷体数学公式识别系统的设计与完成——分割、识别与重组.pdfVIP

  • 6
  • 0
  • 约9.15万字
  • 约 52页
  • 2018-06-07 发布于贵州
  • 举报

印刷体数学公式识别系统的设计与完成——分割、识别与重组.pdf

印刷体数学公式识别系统的设计与完成——分割、识别与重组

摘 要 随着计算机的普及,人们越来越多的使用计算机处理日常工作和存储信息。目前广 泛应用的OCR系统对手写、印刷体文本都有很高的识别率,已经广泛应用于办公自动化、 快速录入等领域,克服了人工输入费时费力的缺点。但是,对于一篇科技文献,其中有大 量的数学公式,它们是由特殊的符号、希腊字母、英文字符和数字组成的复杂的结构体。 当前的OCR系统只能识别单个字符,还不能分析公式结构,这样识别出来的公式只是一 组毫无关系的字符串,失去了它所表达的数学含义。为此,我们提出了一种新的关于表达 式识别的设计思想,并给出了完整的算法,将印刷体的数学公式(图像格式)转换成可编 辑的电子格式(如MⅨ,Word公式编辑器)。 按照表达式识别系统的流程,本文相应的分为以下四部分: 粘连字符的分割。由于纸质文档的印刷质量、纸张的光洁度、扫描仪的分辨率、二值 化等因素的影响,扫描得到的图像中的字符可能是粘连的。这为字符识别带来了困难。本 文提出用自组织映射作字符分割的方法,对经典的自组织学习规则做了一些改进,使其 能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布。文中对最短路径 分割方法和自组织映射法分割做了对比,后者能分割一些前者不能处理的粘连字符。 特征提取与选择

文档评论(0)

1亿VIP精品文档

相关文档