印刷体文档中的数学公式识别方法综述.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2009年第3期 中图分类号:唧 91.41 文献标识码:A 文章编号:1009—2552(2o09)o3一Ol17一o4 印刷体文档 中的数学公式识别方法综述 陈 峰,郑春光 (哈尔滨理工大学计算机学院,哈尔滨 150o86) 摘 要:数学公式识别是将中文电子文档中包含的数学公式识别出来的方法。印刷体文档中的 数学公式识别是 由预处理,数学公式的抽取分割定位和结构分析识别3部分组成。主要介绍了目 前数学公式识别的研究现状 ,并对 已提 出的各种成熟识别方法进行总结。 关键词:数学公式识别 ;公式提取;结构分析 Survey0ftllerec0gIliti0nmeth0df0lrmathematical f0lrmuIasinprintedd0cuments CⅧ 1NFeng,Z皿 NGChun.guang (sd100l0fC唧 Imter,IIaI蛐 v t)r0fsci愀 and llI10 ,酗 15oo86,a1iIla) A I仃锄ct:Mathematicalf0IInularec0朗i【ti帆 isamethod t0recognizetIlen1a山锄 aticalf0mmlaLsin Chinese electmnicdocurnents.Itisc0mp0sed0fpreprocessing,theextracti0n,divisi0nandlocalization0f瑚 thematical f0mlula,andthestructureanalysisrecognition.Thispaperm il1lyin)ducedtheresearchsitu on0f mathem ticalf0nnularec0gIlition,s咖 zedthemau【rerecogniti0nIne山ods. Ie【ywords:ma山em ticalf0硼ularec0 ition;f0Ⅱnula既t砭c【ti0n;stⅢcturalana1ysis 0 引言 而这些科技文献不仅包含普通文字、图像和图形,还 在科技高速发展的现代,许多科技文献中包含 包含大量的数学公式。目前主流的OCR系统能够 大量的公式,它们有的和文档中的文字混杂在一起 高效、准确地识别文档中的文字,但一般不具备数学 (内嵌),有的独 占一行。由于 目前的 OCR(Optical 公式的识别与重构功能,仍需要按照图片来处理公 Ch锄ce【rReco簿1iti0n,光学字符识别)系统不能正确 式,存储数据量大且无法编辑、修改;因此,研究数学 识别文献中的数学公式,这些公式都是 以图像的形 公式识别、分析和重构,对于拓宽OCR系统的应用 式存在的。当人们对科技文献进行数字化时,其中 领域具有重要意义。 的公式只能按照图像格式进行保存 ,而不能加 以识 本文对当前的数学公式识别的研究现状和数学 别分析,这样就不能依据公式对文章进行检索,而有 公式识别过程中的成熟算法进行了综述 。 的文章的核心内容就是这些公式,失去了公式的文 1 国内外研究现状 章可能毫无意义。当读者想验证或重用这些数学公 数学公式的识别包括符号识别和结构分析两个 式时,只能使用专门的数学计算软件或数学排版软件 阶段。符号识别,文字识别是符号识别的一个最重 按照其语法规则重新输入,其输入要比普通文本的输 要的分支,它作为一个热门的研究领域已经具有三 入困难,因为数学表达式除了英文字符和阿拉伯数字 十多年的历史了,这为数学表达式中的特殊符号的 之外还包括许多特殊的符号和希腊字母,使其输入过 识别奠定了坚实的基础;结构分析,数学表达式的结 程复杂繁琐,速度慢,且存在一定的错误率。

文档评论(0)

叶峰 + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档