中英文文档中公式定位.pdfVIP

  • 4
  • 0
  • 约9.02千字
  • 约 7页
  • 2015-08-18 发布于安徽
  • 举报
中英文文档中公式定位 谭怒涛,刘昌平,黄磊 中科院自动化研究所北京100080 Email:IcpOhangwang.cⅧ.cn 摘要:在科技文献中存在大量的中英文与公式的混排现象。如果在识别前能正确把它们进行区分并使用爿i间 的OCR将可以极大地提高文档的识别正确率.本文通过结台两个不同的OCR识别结果以及连通体分析J垃功 实现r中文与英文或公式的区分,然后再进一步通过上下标以及特殊字符的识别,并进行一些语义分析实 现公式的定位.实验结果表明.此方法能比较有效的实现中英文文档中的公式定位. 关键词:公式定位:公式识别;OCR;中英区分 1引言 在信息化程度不断提高的今天,越来越需要把大量的文献以电子版形式保存,然而目前的 OCR系统都只是针对某一单一语言进行的.如汉字识别核心可以对汉字达到高的识别率。但对 英文的识别率低,而且这些OCR都不能区分公式和文本。所以,针对大量的中英文和公式混合 文档,如果能区分出中英文和公式然后利用不同的识别核心将能极人提高识别的准确率。 数学公式的定位,包括独立行公式的定位和嵌入式公式的定位。独立行公式指只包含公 式不

文档评论(0)

1亿VIP精品文档

相关文档