信封图像地址行提取总结.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信封图像地址行提取总结

信封图像地址行提取总结   【摘要】本文从信封地址识别系统的结构入手,叙述了目前本问题的研究现状及困难所在。介绍国际上现有的重要算法,最后,通过总结现有地址行提取算法的局限性,提出了今后地址行提取研究的发展方向及地址行提取研究方法的扩展应用。   【关键词】地址块 图像分割 信封图像      随着社会和经济的飞速发展,机械自动化就显得越来越重要。在我国信封分拣方面就面临着信封自动分拣的挑战。信封图像中地址行的提取是邮政自动分拣系统的核心部分,地址行提取的准确率关系着信封分拣的准确率和速度,决定能否在实际中应用。本文介绍了信封图像中地址行提取算法,并讨论算法的优缺点,指出了未来地址行提取的研究方向及该研究的其他应用。   1.信封图像地址行提取   1.1 基本定义。   信封图像中地址行提取是指从输入的信封图像中,提取尽可能小的图像块,该图像块中要尽量包含所有的收地址信息和尽可能少的无关信息。   地址行提取结果的表示形式是多种的,只要结果能够满足OCR识别的要求即可。OCR模块对地址块进行切分、解释,然后进行识别。   1.2 自动分拣系统。   信封地址行提取的算法因不同种类的信封也呈现出多样性。但是目前的信封分拣系统的基本框架大致相同如下所示:   〖JZ〗〖TP1.TIF;%40%40,BP〗〖KH-*1〗   对于手写的信封图像的处理较为复杂,提取地址行的准确度也比较低,一般采用专用的硬件进行并行处理。采用流水线和多处理器的技术进一步提高了对信封图像的地址行定位的速度。   1.3 研究现状及困难。   通过对信封图像的处理,达到从图像中提取地址行的目的,然后进行识别、分拣。对于较为规整的信封图像,提取的准确率和速度都是比较高的。对于手写信封,每个人的书写风格和信封的版式各不相同,邮戳加盖在哪一个位置也是不固定的。有的与文字分开,有的加盖在文字上;也有的信封表面印有许多广告或者图案等这些都给地址行的提取造成了困难。目前,对于背景比较花哨,或者地址行与其它图形图像块粘连的信封图像的处理还没有较大的突破。   2.有效算法   信封图像中的地址行分为手写和打印两种。实际系统中,实现分拣时,可通过检测信封图像是打印还是手写选用相应的算法,然后对信封图像进行处理。通过训练,计算机基本上能够识别出地址行。目前国际认可的信封地址行提取方法分为:bottom-up、top- down、hybrid三种。   A.Bottom-up算法   Bottom-up方法是指从构成信封图像的基元开始处理,提取基元的信息,然后按照规则将符合规则的基元进行合并,直到合并的结果被判断为地址行为止。   bottom-up方法的基本步骤可归纳为图像输入、连通域提取、图像分割、地址行提取、地址行倾斜校正和检验、地址行识别。   2.1 预处理。   在大部分算法中经过二值化,对计算速度的提高有很大帮助。二值化过程的精确度对后续的处理有较大的影响,其难点在于阈值的确定。二值化方法最重要的是阈值的选择,阈值选的过大,就会丢掉部分前景信息;阈值选择过小,就会将一些背景信息当成前景信息。二值化方法分为两类:一类是全局二值化;另一类是局部二值化。   降低分辨率是必要的,一般的信封图像比较大,处理速度较慢。在不影响后续OCR识别的前提下,对信封图像进行降采样是十分有效的提高运算速度的手段。实验证明100ppi的信封图像就能够满足识别的要求。   2.2 连通域提取。   连通域提取一般取8连通,将所有联系在一起的像素用同一种特征来标记,比如给连通域中所有的像素附同一个像素值。有时候,仅仅这样标记不能满足算法本身的要求,因此需要对提取的连通域做一些修改,以便能够将具有相同特征的不同的连通域最终合并成为一个连通域。   2.3 图像分割。   图像分割主要是为地址行的提取做准备,分割操作将信封图像分为具有不同标记的多个部分,包括文本块、图像块、图形块、噪声块等。研究只关心地址块的位置,图像块、图形块和噪声块对于地址块来说都是干扰信息即噪声,因此可以将图像粗略的分为地址块和噪声块。   图像的分割在某种呈度上起着对图像中信息粗分类的作用,标记出文本行和非文本行虽然分割后并不知道哪一图像块文本行,至少在空间上文本行与非文本行分开的可能性是非常大的。当然,文本部分也可能被分成多个文本块,这就需要后续的进一步处理。目前存在的分割方法很多是在获取一定的先验知识后进行的,对信封图像的分割来说,是在假设地址部分的文字基本成行或者成列。对于非基于先验的图像分割的研究还没有很好的结果。其意义是重大的,应用也比较广泛。   2.4 特征提取及地址行定位。   地址行的特征是其用以区别于信封图像中其它图像块的特征。一般有:连

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档