印刷体文档中的数学公式识别方法综述.pdf

下载文档 降价啦

35
0
约1.3万字
约 4页
2017-09-11 发布于湖北
举报
版权申诉
保障服务

印刷体文档中的数学公式识别方法综述.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2009年第3期中图分类号：唧 91．41 文献标识码：A 文章编号：1009—2552(2o09)o3一Ol17一o4 印刷体文档中的数学公式识别方法综述陈峰，郑春光 (哈尔滨理工大学计算机学院，哈尔滨 150o86) 摘要：数学公式识别是将中文电子文档中包含的数学公式识别出来的方法。印刷体文档中的数学公式识别是由预处理，数学公式的抽取分割定位和结构分析识别3部分组成。主要介绍了目前数学公式识别的研究现状，并对已提出的各种成熟识别方法进行总结。关键词：数学公式识别；公式提取；结构分析 Survey0ftllerec0gIliti0nmeth0df0lrmathematical f0lrmuIasinprintedd0cuments CⅧ 1NFeng，Z皿 NGChun．guang (sd100l0fC唧 Imter，IIaI蛐 v t)r0fsci愀 and llI10 ，酗 15oo86，a1iIla) A I仃锄ct：Mathematicalf0IInularec0朗i【ti帆 isamethod t0recognizetIlen1a山锄 aticalf0mmlaLsin Chinese electmnicdocurnents．Itisc0mp0sed0fpreprocessing，theextracti0n，divisi0nandlocalization0f瑚 thematical f0mlula，andthestructureanalysisrecognition．Thispaperm il1lyin)ducedtheresearchsitu on0f mathem ticalf0nnularec0gIlition，s咖 zedthemau【rerecogniti0nIne山ods． Ie【ywords：ma山em ticalf0硼ularec0 ition；f0Ⅱnula既t砭c【ti0n；stⅢcturalana1ysis 0 引言而这些科技文献不仅包含普通文字、图像和图形，还在科技高速发展的现代，许多科技文献中包含包含大量的数学公式。目前主流的OCR系统能够大量的公式，它们有的和文档中的文字混杂在一起高效、准确地识别文档中的文字，但一般不具备数学 (内嵌)，有的独占一行。由于目前的 OCR(Optical 公式的识别与重构功能，仍需要按照图片来处理公 Ch锄ce【rReco簿1iti0n，光学字符识别)系统不能正确式，存储数据量大且无法编辑、修改；因此，研究数学识别文献中的数学公式，这些公式都是以图像的形公式识别、分析和重构，对于拓宽OCR系统的应用式存在的。当人们对科技文献进行数字化时，其中领域具有重要意义。的公式只能按照图像格式进行保存，而不能加以识本文对当前的数学公式识别的研究现状和数学别分析，这样就不能依据公式对文章进行检索，而有公式识别过程中的成熟算法进行了综述。的文章的核心内容就是这些公式，失去了公式的文 1 国内外研究现状章可能毫无意义。当读者想验证或重用这些数学公数学公式的识别包括符号识别和结构分析两个式时，只能使用专门的数学计算软件或数学排版软件阶段。符号识别，文字识别是符号识别的一个最重按照其语法规则重新输入，其输入要比普通文本的输要的分支，它作为一个热门的研究领域已经具有三入困难，因为数学表达式除了英文字符和阿拉伯数字十多年的历史了，这为数学表达式中的特殊符号的之外还包括许多特殊的符号和希腊字母，使其输入过识别奠定了坚实的基础；结构分析，数学表达式的结程复杂繁琐，速度慢，且存在一定的错误率。