- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文电子文档中数学公式识别的实现
0 数学公式的识别与分析
在科学技术快速发展的现代,许多科学文献中都包含大量的公式。有些东西和文档中的文字混合在一起(嵌入式),有些东西是孤独的。由于目前的OCR(Optical Character Recognition,光学字符识别)系统不能正确识别文献中的数学公式,这些公式都是以图像的形式存在的。当人们对科技文献进行数字化时,其中的公式只能按照图像格式进行保存,而不能加以识别分析,这样就不能依据公式对文章进行检索,而有的文章的核心内容就是这些公式,失去了公式的文章可能毫无意义。当读者想验证或重用这些数学公式时,只能使用专门的数学计算软件或数学排版软件按照其语法规则重新输入,其输入要比普通文本的输入困难,因为数学表达式除了英文字符和阿拉伯数字之外还包括许多特殊的符号和希腊字母,使其输入过程复杂繁琐,速度慢,且存在一定的错误率。
近年来,随着互联网用户的迅速发展,通过互联网信息的传播和交换有了增长的趋势,数字图书馆和远程教育逐渐成为热门领域,特别是技术资源的共享日趋频繁,科技文献的电子化就显得尤其重要,而这些科技文献不仅包含普通文字、图像和图形,还包含大量的数学公式。目前主流的OCR系统能够高效、准确地识别文档中的文字,但一般不具备数学公式的识别与重构功能,仍需要按照图片来处理公式,存储数据量大且无法编辑、修改;因此,研究数学公式识别、分析和重构,对于拓宽OCR系统的应用领域具有重要意义。
本文对当前的数学公式识别的研究现状和数学公式识别过程中的成熟算法进行了综述。
1 印刷体数学程式的识别
数学公式的识别包括符号识别和结构分析两个阶段。符号识别,文字识别是符号识别的一个最重要的分支,它作为一个热门的研究领域已经具有三十多年的历史了,这为数学表达式中的特殊符号的识别奠定了坚实的基础;结构分析,数学表达式的结构比较复杂,按照一定规则分布在二维的结构中,而不是像简单文本那样的线性结构,不过人们对二维模式结构分析的研究也有一定的历史了。但是,正如上文中所提到的一样,还很少有人针对数学表达式识别这一课题进行过专门的研究,即把符号识别和结构分析两者结合起来解决问题。直到近年才有越来越多的人开始把注意力投向这一领域,因此现有的研究数学表达式的文章比较少。
1968年Anderson在其博士论文中首次提出了公式识别问题,他提出的用于数学符号识别的方法给出了一个非常好的个案研究。而随后的几十年里,数学公式识别技术却发展缓慢,直到80年代末90年代初,这个领域的研究热度逐渐增加。
Berkely大学的Fateman从1995开始研究自动数学公式处理问题。Blostein和Grbavec则首次定义了数学表达式的识别问题,将数学表达式的识别分为两个阶段:符号识别和结构分析,每个阶段又包括三个步骤,它们分别是符号识别中的预处理、分割和符号识别三个步骤以及结构分析中的符号间的空间关系确定、逻辑关系确定和意义构造,并根据该问题的主要子部分给出了现存工作的一个调查。
近年来,随着越来越多的人进入到这一领域,数学表达式识别的研究取得了很大的进展。为了用更简练的方式分析表达式,Belaid和Haton使用了两个句法分析,也就是从上到下与从下至上法。用结构分析法识别出符号后,先用从上至下法将表达式分解成子表达式,再用从下至上法将子结构联合为更大的结构。然而,它们的试验仅仅限于一些简单的数学表达式(算术和一些三角函数方程)。
Chan和Yeun设计了运用结构和句法方法的联机数学表达式识别系统。Okamoto和Miac强调大多数的数学表达式的识别可以不通过实际分割它们的符号而完成结构排列。H.J.Lee和M.C.Lee提出了一个识别印刷体数学表达式的系统。Fatema设计了一个典型的系统,该系统能成功地将排版好的数学表达式转换成Lisp表达式。对符号识别部分而言,运用了不同的方法,如计算用的Hausdorff距离和符号灰度值的计算。
Inoue和Suzuk提出的系统是专门用来处理日文文档的。这个系统是在原有的OCR系统上发展起来的。系统把公式行从文本行中提取出来后,将这些行分为两部分,日文字符区和数学字符区。日文字符区只包括日文字符,剩下的属于数学字符区。在这个系统中,分割和识别是由自适应的OCR识别器同时进行的。其基本思想很简单,OCR识别器能识别的是日文字符,不能识别的是数学公式。
以上是对国外学者所做工作的简要介绍,国内的学者涉足于公式识别领域研究的很少,江红英,勒简明,王庆人在他们的文章中给出了基于统计特征的印刷体数学公式上下标关系的判别方法,文章仅仅局限于数学公式上下标的关系的判定,对数学公式识别的其它方面没有涉及。一些综述文章介绍了目前国外数学公式识别的研究现状,数学表达式识别过程和已提出的符号识别方法与结构分析方法
文档评论(0)