网站大量收购独家精品文档,联系QQ:2885784924

中英文文档中公式定位研究.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中英文文档中公式定位 谭怒涛,刘昌平,黄磊 中科院自动化研究所北京100080 Email:IcpOhangwang.cⅧ.cn 摘要:在科技文献中存在大量的中英文与公式的混排现象。如果在识别前能正确把它们进行区分并使用爿i间 的OCR将可以极大地提高文档的识别正确率.本文通过结台两个不同的OCR识别结果以及连通体分析J垃功 实现r中文与英文或公式的区分,然后再进一步通过上下标以及特殊字符的识别,并进行一些语义分析实 现公式的定位.实验结果表明.此方法能比较有效的实现中英文文档中的公式定位. 关键词:公式定位:公式识别;OCR;中英区分 1引言 在信息化程度不断提高的今天,越来越需要把大量的文献以电子版形式保存,然而目前的 OCR系统都只是针对某一单一语言进行的.如汉字识别核心可以对汉字达到高的识别率。但对 英文的识别率低,而且这些OCR都不能区分公式和文本。所以,针对大量的中英文和公式混合 文档,如果能区分出中英文和公式然后利用不同的识别核心将能极人提高识别的准确率。 数学公式的定位,包括独立行公式的定位和嵌入式公式的定位。独立行公式指只包含公 式不包含文本的行,嵌入式公式指嵌入到文本行中的公式。对公式的定位一般分为两类,基 于0cR识别和不基于ocR识别。 K.Inoue…把连通体分为几类特殊符号。通过提取长宽比、面积、黑点密度三个特征来 确定连通体所属符号类别,并利用ocR识别出的数学运算符通过台并,扩展得到公式。 别出独立公式行。内嵌公式则通过先识别一些诸如加减乘除、根号等特殊数学符号,然后以 特殊符号为中心两边扩展得到内嵌公式。 n-grams, Utpal.Garain“’也是先利用已有的OCR来识别文档,然后计算每个句子的word 再根据预先的统计确定某一句子属于内嵌句子的概率,最后根据识别出的数学符号的位置相 似性组合成内嵌公式。 Chowdhury”1把独立公式行分成三类:分式、矩阵、其他.对每一类分别提取特征然后 利用决策树进行分类。 Tian…则把文档分成文本、公式、图片三类块,先从图片中提取出独立行公 Xue-Dong 式.再从文本中提取出嵌入式公式。 连通体的相对大小、相对位置、连通体间距离、左相邻、右相邻、边界等特征,并把数学符 靳简明”1则利用了非参数估计Parzen方法提取独立公式行,并通过水平投影标记异常符 号提取出内嵌公式。 ·—477—- } 在本文当中,对公式的定位分两步进行。第一步先进行汉字的提取,主要利用汉字和符 号两个识别核心识别的结果进行判断。第二步再进行公式柏定位,这一步主要是通过对上下 标的判断以及上下文语义分析得到。 本文组织如下:第二部分介绍中文的提取,第三部分介绍公式的定位,第四部分给出实 验结果,第五部分进行总结并指明了下一步研究方向。 2中文的提取 在这一步中,主要是通过OCR识别,然后利用决策树和连通体分析实现汉字的提取。其 流程图如图l所示。 图 图1中文与非中文的区分流程幽 2.1预处理 包括图像二值化、版面分析、倾斜校正、投影分割等。在投影分割后,我们将得到一个 个字符块,每个字符块包括一个汉字或一个英文字母或几个英文字母或一个公式。这里假设 每个汉字都箍完全独立投影出来,不会与任何其它字符粘连,而英文则允许有粘连情况出现。 2.2字符合并 在汉字当中.常有一些左右结构的字,如‘则’、‘非’等,这样的字在投影时会分成 两个部分,如果不正确合并,将会很容易在后面的处理中带来错误。所以在这一步我们尝试 对它们进行合并。合并基于识别可信度来判断。如果合并后汉字的可信度很高或比合并前可 信度提高,则进行合并。 2.3特征提取 2.3.1 OCR识别可信度特征 对每个字符块,我们先后采用两个不同的OCR识别核心(汉王汉字识别核心和汉王符号

您可能关注的文档

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档