- 4
- 0
- 约9.02千字
- 约 7页
- 2015-08-18 发布于安徽
- 举报
中英文文档中公式定位
谭怒涛,刘昌平,黄磊
中科院自动化研究所北京100080
Email:IcpOhangwang.cⅧ.cn
摘要:在科技文献中存在大量的中英文与公式的混排现象。如果在识别前能正确把它们进行区分并使用爿i间
的OCR将可以极大地提高文档的识别正确率.本文通过结台两个不同的OCR识别结果以及连通体分析J垃功
实现r中文与英文或公式的区分,然后再进一步通过上下标以及特殊字符的识别,并进行一些语义分析实
现公式的定位.实验结果表明.此方法能比较有效的实现中英文文档中的公式定位.
关键词:公式定位:公式识别;OCR;中英区分
1引言
在信息化程度不断提高的今天,越来越需要把大量的文献以电子版形式保存,然而目前的
OCR系统都只是针对某一单一语言进行的.如汉字识别核心可以对汉字达到高的识别率。但对
英文的识别率低,而且这些OCR都不能区分公式和文本。所以,针对大量的中英文和公式混合
文档,如果能区分出中英文和公式然后利用不同的识别核心将能极人提高识别的准确率。
数学公式的定位,包括独立行公式的定位和嵌入式公式的定位。独立行公式指只包含公
式不
您可能关注的文档
- 中國古代文人書畫收藏家的收藏旨趣.pdf
- 中國內地教育不均程度的實證的研究--堅尼系數的拆解分析.pdf
- 中國現代建築文化:何去何從.pdf
- 中厚板管层流在线控冷模型开发.pdf
- 中华传统文化传衍与和合—以台湾现代社会中的祖先崇拜、神鬼祭祀之民俗为例.pdf
- 中华民族的精神财富--妈祖文化在心灵净化中的作用.pdf
- 中华民族的崛起是海外华文媒体繁荣的源泉.pdf
- 中华温泉文化建设思考.pdf
- 中华文化“多元一体”的现代意义.pdf
- 中华文化孕育的中医药学是未来新医药学的主角.pdf
- 专项十三 复合句(含答案) 2026年中考人教版英语语法专项复习.doc.docx
- 专项十四 There be句型和主谓一致(含答案) 2026年中考人教版英语语法专项复习.doc.docx
- 专项14 构词法 学案(含答案)2025年中考人教版英语语法专项复习.doc.docx
- 静脉肾盂造影结石梗阻评估.ppt
- 《假期实践活动》教案-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
- 老年结石病合并慢病综合诊疗.ppt
- 鹿角形肾结石复杂手术治疗.ppt
- 经皮肾镜超声碎石清石术.ppt
- 《参观爱国主义教育基地》教案-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
- 《生活中的大数:整理与复习》教案(2课时)-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
原创力文档

文档评论(0)