- 13
- 0
- 约4.54千字
- 约 10页
- 2018-06-03 发布于福建
- 举报
文本型数字图像OCR识别准确度研究之数字扫描对象获取阶段
文本型数字图像OCR识别准确度研究之数字扫描对象获取阶段
摘要:文章首先将文本型数字图像OCR识别工作的生命周期划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段,然后对其中数字扫描对象的获取阶段中OCR识别准确度的一系列影响因素进行分析,随后提出了针对性的提高策略。
OCR(Optical Character Recognition,光学字符识别)这一概念最早于1929年由德国科学家Tausheck提出[1]。随后,美国科学家Handel描述了利用光学技术对文字进行识别的概念模型,但这个模型直到计算机的诞生才进入实际应用。信息资源数字化工作中的OCR识别,其原理简单来说就是利用光学技术对文字和字符信息进行扫描识别,并将其转化为计算机内码,进而按照要求输出相应格式的文档信息,其工作流程如下图所示。OCR识别在信息资源数字化工作中应用时,其准确度一直是人们关注的焦点,因为OCR精???识别是保证数字化产品质量进而为整项工作提供用户保障的一个重要环节。
信息资源数字化工作中的OCR识别,其生命周期可以划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段[2]。以信息资源数字化OCR识别工作的生命周期为视角,对各阶段中OCR识别准确度的影响因素进行分析并提出相应的提高策略,能够为信息资源数字化项目人员提供有益参考,进而为向用户提供高质量的信息资源数字化产品和服务提供有效保障。本文主要对其中数字扫描对象的获取阶段中OCR识别准确度的一系列影响因素进行分析,并提出相应的提高策略。
目前,信息资源数字化项目主要是对二维平面介质型原始文献资料进行数字扫描。康奈尔大学图书馆将二维平面介质型文献资料区分为印刷型文本、手稿、半色调性信息资源、连续色调性信息资源和混合型信息资源等五种类型[3]。本文所讨论的数字图像,是指由印刷型文本经数字扫描所生成的数字图像中除去图、表之外的纯文本部分,文中称之为“文本型数字图像”。
一 、数字扫描对象的获取阶段OCR识别准确度影响因素分析
从目前国内外已有信息资源数字化项目的实施情况来看,在数字扫描对象的选择方面主要存在着两种思路:一种是直接对原始文献进行数字扫描或数码拍照,另一种是首先生成原始文献的缩微胶片,然后将缩微胶片作为原始文献的替代进行数字扫描或数码拍照。可见,在数字扫描对象的获取阶段中,原始文献质量及其缩微胶片质量是影响OCR识别准确度的两个主要方面。
1.原始文献质量方面的影响因素
1.1装订情况
信息资源数字化工作中,原始文献在进行数字扫描之前一般都已装订成册。如果直接将装订成册的原始文献按页依次扫描,在连接每相邻两页的书籍位置处容易出现阴影(尤其是当原始文献页数较多、纸张较厚时),如果阴影面积过大就会影响其附近字符信息的扫描质量。在实际操作中,数字化项目人员有时就需要先将装订成册的原始文献进行拆分,然后逐页依次扫描。但是在拆分过程中容易对原始文献造成物理损坏进而影响数字扫描质量,而且对部分珍稀文献进行拆分实际上也是不可取的。
1.2纸张的物理状况
1.2.1纸张的材质。部分原始文献所用纸张材质粗劣、压光不够平滑,导致其表面形成一些凸起的纤维颗粒或小块,对油墨的吸收不够均匀。承载于这类纸张上的字符信息在行与行之间、相邻字符之间以及同一字符的相邻笔画之间容易形成粘连。
1.2.2纸张的平整程度。部分原始文献在平时的流通利用以及数字化工作时的搬运过程中,在一些纸张的表面形成了褶皱,褶皱程度严重的部位在数字扫描时会形成扫描阴影。
1.2.3纸张的洁净程度。部分原始文献受平时流通利用过程中的人为因素以及保存过程中的环境因素影响,在一些纸张表面残留的污渍和附着的灰尘会对数字扫描成像质量造成干扰。
1.2.4纸张的完好性。部分原始文献因年代久远或在流通利用时人为地造成一些纸张残缺不全,损坏了其中一些字符信息的完整性。残缺字符图像信息的OCR识别准确度无法得到保证。
1.2.5纸张的透明性。部分原始文献所用纸张过于透明,导致其纸张背面的字符信息极易影响正面字符信息的数字扫描成像质量。
2.原始文献缩微胶片质量方面的影响因素
2.1缩微胶片的片基材质
缩微胶片,通常是指以三醋酸纤维素或聚酯为片基、含有银明胶涂层的胶片。老化实验和实际使用都已经证明,醋酸片基类缩微胶片相对容易老化、进而影响对承载于其上的字符图像信息的OCR识别。
2.2缩微胶片的冲洗质量
缩微胶片在冲洗过程中,主要有以下四个方面的因素会对承载于其上的字符图像信息的OCR识别造成影响[4]:
2.2.1缩微胶片在冲洗时因对显影液的药效和温度控制不当,容易导致胶
原创力文档

文档评论(0)