- 6
- 0
- 约9.15万字
- 约 52页
- 2018-06-07 发布于贵州
- 举报
印刷体数学公式识别系统的设计与完成——分割、识别与重组
摘 要
随着计算机的普及,人们越来越多的使用计算机处理日常工作和存储信息。目前广
泛应用的OCR系统对手写、印刷体文本都有很高的识别率,已经广泛应用于办公自动化、
快速录入等领域,克服了人工输入费时费力的缺点。但是,对于一篇科技文献,其中有大
量的数学公式,它们是由特殊的符号、希腊字母、英文字符和数字组成的复杂的结构体。
当前的OCR系统只能识别单个字符,还不能分析公式结构,这样识别出来的公式只是一
组毫无关系的字符串,失去了它所表达的数学含义。为此,我们提出了一种新的关于表达
式识别的设计思想,并给出了完整的算法,将印刷体的数学公式(图像格式)转换成可编
辑的电子格式(如MⅨ,Word公式编辑器)。
按照表达式识别系统的流程,本文相应的分为以下四部分:
粘连字符的分割。由于纸质文档的印刷质量、纸张的光洁度、扫描仪的分辨率、二值
化等因素的影响,扫描得到的图像中的字符可能是粘连的。这为字符识别带来了困难。本
文提出用自组织映射作字符分割的方法,对经典的自组织学习规则做了一些改进,使其
能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布。文中对最短路径
分割方法和自组织映射法分割做了对比,后者能分割一些前者不能处理的粘连字符。
特征提取与选择
您可能关注的文档
最近下载
- 2025年枣庄银行校园招聘笔试考试题库及答案解析.docx VIP
- 四川省德阳市2023-2024学年七年级下学期语文期末试卷(含答案).pdf VIP
- 小升初语文专项练习题:词语(十)(Word版,含答案).docx VIP
- 邮储个人网上银行客户操作手册.pdf VIP
- 光纤通信仿真:光纤传感器仿真_(6).基于Matlab的光纤传感器仿真.docx
- 全科转岗培训考试题库及答案.doc VIP
- 小升初语文专项练习题:词语(九)(Word版,含答案).docx VIP
- 2026年枣庄银行校园招聘笔试备考题库及答案解析.docx VIP
- 文稿案例学习雷达rdr4000pilot s guide boeing chn.pdf VIP
- 2026年枣庄银行校园招聘笔试参考试题及答案解析.docx VIP
原创力文档

文档评论(0)