印刷体数字快速识别算法在身份证数字识别中的应用.docxVIP

印刷体数字快速识别算法在身份证数字识别中的应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
印刷体数字快速识别算法在身份证数字识别中的应用 1 实验应用的ocr面临的挑战 光学字符识别(orc)已经发展了几十年,并从实验研究转向应用。 实际应用中对OCR提出了高识别率和高置信度的要求。单一特征抽取构成的识别系统通常难以满足要求 2 资源提取 基于印刷体数字结构, 我们抽取了数字的4种特征:横线特征, 竖线特征, 水平方向过线数, 垂直方向过线数。 2.1 水平方向上黑像素点的个数 根据数字的结构特征, 数字中有可能存在横线。于是, 在水平方向上, 定义比例: 其中:n Width为图像的宽度, 用像素点个数来度量, n HBlack Num为水平方向上黑像素点连续出现的个数。 若0.6=Hori R=1, 则认为该数字中这些连续出现的黑像素点构成了一条横线。由于数字中的横线是有一定的宽度的, 因此在水平扫描线顺序扫描时, 相邻的几条横线, 将其视为同一条横线。 根据横线在数字中的不同位置, 我们定义:从左上角开始的横线为上横线, 从左下角开始的横线为下横线。 以数字1、7为例, 如图1所示: 根据上述的描述, 易知:1有一条下横线, 7有一条上横线。 2.2 连续出现的个数 与横线特征原理相同。在垂直方向上, 定义比例: 其中:n Height为图像的高度, 用像素点个数来度量, n VBlack Num为垂直方向上黑像素点连续出现的个数。 若0.4=Vert R=1, 则认为该数字中这些连续出现的黑像素点构成了一条竖线。同理, 由于数字中的竖线是有一定的宽度的, 因此在垂直扫描线顺序扫描时, 相邻的几条竖线, 将其视为同一条竖线。 根据竖线在数字中的不同位置, 我们定义:从左下角开始的竖线为左竖线, 从右下角开始的竖线为右竖线。 以数字0为例, 如图2所示: 根据上述描述易知:0有一条左竖线, 有一条右竖线。 2.3 素区域常见农业点火数 把数字平均分成上、中、下3部分, 在每个部分中分别以水平方向的扫描线从左到右穿过数字, 计算每条扫描线穿越黑像素区域的交点数, 在上部分得到的最大交点数定义为该数字的上过线数, 在下部分得到的最大交点数定义为该数字的下过线数, 在Y固定时得到的交点数定义为该数字在Y处的过线数。 以数字2为例, 如图3所示。 显见:数字2的上过线数为2, 下过线数为2, 在1/2高度处的过线数为1, 在上1/3高度处的过线数为1, 在下1/3高度处的过线数为1。 2.4 最大控制点数的生成 原理类似于2.3所述, 把数字平均分成左、中、右3部分, 在每个部分中分别以垂直方向的扫描线从上到下穿过数字, 计算每条扫描线穿越黑像素区域的交点数, 在左部分得到的最大交点数定义为该数字的左过线数, 在右部分得到的最大交点数定义为该数字的右过线数, 在X固定时得到的交点数定义为该数字在X处的过线数。 以数字9为例, 如图4所示。 显而易见:数字9的左过线数为3, 右过线数为3, 在1/2宽度处的过线数为3, 在左1/3宽度处的过线数为3, 在右1/3宽度处的过线数为3。 以上述原理为依据, 我们以宋体为例, 对数字0~9进行特征抽取, 得到它们的特征值, 如表1所示。 3 识别标记 根据表1中的特征值, 我们构造了编码器, 进行数字识别。 3.2 基于编码的识别算法 由表2易知, 每个数字的编码表不完全相同, 所以可由此编码器识别出数字0-9。我们将此算法具体应用于身份证图像中编号数字的识别。先对身份证图像中的编号数字进行定位分割后, 将待识别字符作一次行扫描, 抽取水平方向的过线数和横线特征;再作一次列扫描, 抽取垂直方向的过线数和竖线特征。再利用表2的编码, 对数字进行识别。 整个识别流程, 如图5所示。 3.3 识别数字数字身份 实验中, 我们用Visual C++6.0编制了所有软件, 在PC K6-2 300 (32MB内存) 上对300张身份证图像中的编号数字进行识别, 识别统计结果如表3所示。实验表明该算法简洁、快速、可靠、实用、抗干扰性强。 3.1 过线数构造编码 分析表1中的特征值, 我们以上横线、下横线、左竖线、右竖线、上过线数、右过线数、上1/3高度处的过线数构造编码器, 如表2所示。表数字的编码器

文档评论(0)

182****8318 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档