- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘 要
科技文献作为记录科学技术信息的载体,对其进行数字化是建设信息化社会的迫切
character
需要。目前广泛应用的OCR(Optical
印刷体文献中的文字高速、自动地输入计算机,且取得很高的识别率。但是科技文献中
包含大量的数学公式,OCR还不能对其进行正确识别,只能将其存储为图片格式,不
仅占用大量空间,而且不能对其进行再编辑。因此,数学公式自动识别在将科技文献转
化为电子文档的过程中具有重要的意义。
印刷体数学公式识别系统包括公式抽取、公式符号识别、公式结构分析和公式重构
四个组成部分。其中,公式符号识别模块是系统的核心部分,其功能是将公式中的符号
图像转换成相应的代码,分为符号切分和符号识别两个阶段。针对传统的文字识别器在
识别公式符号中存在的问题,本文对印刷体数学公式符号切分和识别展开研究,设计了
能够适应公式符号二维分布、大小不一、多交叠、多字体等特点的切分和识别算法。首
先采用迭代自组织的符号切分方法对公式符号进行切分,为符号识别提供正确的符号位
置信息;然后对符号进行预处理,并采用基于游程特征的符号识别方法对公式符号进行
识别。通过对不同印刷质量文档的实验表明,本文设计的符号切分和识别方法能够取得
较高的识别率和令人满意的处理速度。
关键词光学字符识别;数学公式识别;字符切分;迭代自组织;游程特征
Abstract
Abstract
Asacarrierof technical scientificdocumentsto
recording information,convening
formisan needin information OCR
digital urgent building society.At
present,thesystems
thathavebeen usedCan the textwith and
widely automaticallyrecognizeordinary highspeed
accuraterate.Asciemificdocumem containsa of
generally numbermathematical
large
thattheOCR cannotdeal themathematicalhadto
expressions systems with,SO expressions
bestoredas whichnot takelots
images only of alsocannotbereedited.
storagespace,but
Thus,automaticofmathematicalbecomesoneofthe vehiclesin
recognition expression key
thedrivetowards sciemificdocumemsimo
transcribing electronicforms.
The of mathematical Canbedividedimofour
文档评论(0)