印刷体数学公式识别系统的设计与完成——分割、识别与重组.pdfVIP

下载本文档

6
0
约9.15万字
约 52页
2018-06-07 发布于贵州
举报

印刷体数学公式识别系统的设计与完成——分割、识别与重组.pdf

印刷体数学公式识别系统的设计与完成——分割、识别与重组

摘要随着计算机的普及，人们越来越多的使用计算机处理日常工作和存储信息。目前广泛应用的OCR系统对手写、印刷体文本都有很高的识别率，已经广泛应用于办公自动化、快速录入等领域，克服了人工输入费时费力的缺点。但是，对于一篇科技文献，其中有大量的数学公式，它们是由特殊的符号、希腊字母、英文字符和数字组成的复杂的结构体。当前的OCR系统只能识别单个字符，还不能分析公式结构，这样识别出来的公式只是一组毫无关系的字符串，失去了它所表达的数学含义。为此，我们提出了一种新的关于表达式识别的设计思想，并给出了完整的算法，将印刷体的数学公式(图像格式)转换成可编辑的电子格式(如MⅨ，Word公式编辑器)。按照表达式识别系统的流程，本文相应的分为以下四部分：粘连字符的分割。由于纸质文档的印刷质量、纸张的光洁度、扫描仪的分辨率、二值化等因素的影响，扫描得到的图像中的字符可能是粘连的。这为字符识别带来了困难。本文提出用自组织映射作字符分割的方法，对经典的自组织学习规则做了一些改进，使其能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布。文中对最短路径分割方法和自组织映射法分割做了对比，后者能分割一些前者不能处理的粘连字符。特征提取与选择

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

印刷体数学公式识别系统的设计与完成——分割、识别与重组.pdfVIP