基于图像模式识别数字图书资料修复及应用研究.docVIP

下载本文档

0
0
约2.49千字
约 7页
2018-08-29 发布于福建
举报
版权申诉

基于图像模式识别数字图书资料修复及应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图像模式识别数字图书资料修复及应用研究

基于图像模式识别数字图书资料修复及应用研究　　摘要：在本文对模式识别技术在数字图书馆资料自动修复和整理中的应用进行阐述，该方法通过对图书资料进行扫描、二值化及图像重建等进行处理，来达到对不清晰的图书资料实现自动修复的目的，以期实现数字图书资料数字化的处理。最后，对该方法的有效性和实用性进行验证。　　关键词：模式识别数字图书资料修复应用　　中图分类号：TP391.41 文献标识码：A 文章编号：1007-9416（2010）10-0075-01 　　　　1 数字图书资料的修复要求和存在问题　　1.1 图书数字处理的基本要求　　“数字图书馆”的建设与发展等都与图书的数字化处理这一关键技术难以分开。虽然网络媒介与纸质媒介这两种媒介文献的表达方式不一样，但都是呈现的相同的内容，图书数字化的基本要求是经过处理之后，电子图书能够对纸质图书的原有真实内容客观的再现。　　1.2 传统修复过程中存在的问题　　图书的数学化目前采用的是VC.#系统，但是，在进行处理的过程当中常常会出现原来图像中的少部分字符变得暗淡或是更加的模糊，处理之后反而不能准确的进行识别。这对图书资料的数字化工作和进程起到了严重的影响作用。　　由于图像采集系统对图像的摄入通常是用BMP格式存放到计算机当中，在各种因素的影响下，造成图像模糊、粗细不均匀或比划断开等现象，直接影响着字符识别的准确性。针对其存在的问题，引入了局部二值化的方法，以期实现对图书资料进行数字化处理。　　　　2 模式识别技术的原理及方法分析　　模式识别指的是对表征现象或事物的各种形式的信息进行分析和处理，以达到对现象或事物进行描述、辨认、分类及解释的一系列过程。　　2.1 局部二值化的原理　　局部二值化就是将大块图像分割为若干个小块图像，分别对各个小图像进行二值化，进而形成完整的二值化图像。讲二值化的问题分解为“分割”、“块副二值化”及“合并”三个步骤来进行，以达到对图像进行二值化处理的目的。　　2.2 图像分块的确定　　在图像分割时，将图像分割成正方形和矩形，首先将图像进行若干正方形的分割，其余的部分也就形成了若干的小矩形，阈值选取方法的普适性与时间开销是息息相关的。　　　　3 数字图书资料的修复过程和方法　　3.1 图像预处理　　在对图书馆或档案进行数字化过程中，由于光电敏感元件载荷电子随机运动会产生噪声及来自传输通道的干扰等原因，经数码化后的灰度图像会含有一定的噪声，因此，在对档案或图书图像进行二值化前，就先要对图像进行预处理。　　3.2 图像中字符信息的提取　　采集系统摄入的图像为24位的灰度值，也就是说有224个灰度等级，此灰度图像的二值化也就是将图像转换为只含有两个等级的二值图像。依据图像区域的不连续性和相似相，取图像灰度的平均值为阈值N，P(x，y)为二值化结果，f(x，y)为灰度值，二值化的处理方式可以表示为：　　　　3.3 二值化图像的再处理　　图像经过局部的二值化之后，产生一个新问题，这样处理后的二值化图像中会含有比较多的噪音，平滑化处理可以达到去除噪音的目的，因此，采用滤波方法来对之进行平滑化处理。　　3.3.1 图像重构　　通过前面的一系列处理之后，已经得到了完整的原始数字图书资料的经二值化后的图像，这样就构造出字符信息得到增强的图像文件，还原的图像比原来数字图书资料效果好，来便于对数字图书资料的阅读和处理。　　3.3.2 模式识别　　除了采用对数字图书资料的图像进行重建的方法之外，还可以依据时间问题的需要来进行后继的处理，使用模式识别方法对字符进行分割、对识别字符进行归类、手工修正和对原图书资料的内容重新输出，并对表格字符识别和进行图像的重构。　　　　4 实例验证　　4.1 对不同处理方法的选择，分别进行试验，在试验中，一般采用以下方法进行对比　　方法一：传统的二值化方法法。此技术的研究目前已经较为成熟，成果也较多，在此就不做阐述。　　方法二：改进的二值化法即局部的二值化方法。方法一采用的二值化方法是把整个图像亮点的平均值N当做阈值，在此我们进行相应的改进，将相关的代码进行转换，选取阈值作为各个块亮度的均值，经过这样处理所产生的噪音，可用滤波方法进行平滑的去除。　　4.2 不同二值化算法实验结果及对比分析　　对原始图像分别采用不同的二值化法来进行二值化处理，针对结果可以得到以下结论：　　第一，经过传统的二值化法处理之后，图像资料中的大部分会比原来图像的对比度要高，便于识别与阅读，但是，原图像中字符暗淡的部分，二值化后反而不能准确的识别，往往会有较大背景噪音的产生，并且当图像中有较大的阴影存在时，采用这种方法通常会把阴影当成是物体，