- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
印刷体数字快速识别算法在身份证数字识别中的应用
1 实验应用的ocr面临的挑战
光学字符识别(orc)已经发展了几十年,并从实验研究转向应用。
实际应用中对OCR提出了高识别率和高置信度的要求。单一特征抽取构成的识别系统通常难以满足要求
2 资源提取
基于印刷体数字结构, 我们抽取了数字的4种特征:横线特征, 竖线特征, 水平方向过线数, 垂直方向过线数。
2.1 水平方向上黑像素点的个数
根据数字的结构特征, 数字中有可能存在横线。于是, 在水平方向上, 定义比例:
其中:n Width为图像的宽度, 用像素点个数来度量, n HBlack Num为水平方向上黑像素点连续出现的个数。
若0.6=Hori R=1, 则认为该数字中这些连续出现的黑像素点构成了一条横线。由于数字中的横线是有一定的宽度的, 因此在水平扫描线顺序扫描时, 相邻的几条横线, 将其视为同一条横线。
根据横线在数字中的不同位置, 我们定义:从左上角开始的横线为上横线, 从左下角开始的横线为下横线。
以数字1、7为例, 如图1所示:
根据上述的描述, 易知:1有一条下横线, 7有一条上横线。
2.2 连续出现的个数
与横线特征原理相同。在垂直方向上, 定义比例:
其中:n Height为图像的高度, 用像素点个数来度量, n VBlack Num为垂直方向上黑像素点连续出现的个数。
若0.4=Vert R=1, 则认为该数字中这些连续出现的黑像素点构成了一条竖线。同理, 由于数字中的竖线是有一定的宽度的, 因此在垂直扫描线顺序扫描时, 相邻的几条竖线, 将其视为同一条竖线。
根据竖线在数字中的不同位置, 我们定义:从左下角开始的竖线为左竖线, 从右下角开始的竖线为右竖线。
以数字0为例, 如图2所示:
根据上述描述易知:0有一条左竖线, 有一条右竖线。
2.3 素区域常见农业点火数
把数字平均分成上、中、下3部分, 在每个部分中分别以水平方向的扫描线从左到右穿过数字, 计算每条扫描线穿越黑像素区域的交点数, 在上部分得到的最大交点数定义为该数字的上过线数, 在下部分得到的最大交点数定义为该数字的下过线数, 在Y固定时得到的交点数定义为该数字在Y处的过线数。
以数字2为例, 如图3所示。
显见:数字2的上过线数为2, 下过线数为2, 在1/2高度处的过线数为1, 在上1/3高度处的过线数为1, 在下1/3高度处的过线数为1。
2.4 最大控制点数的生成
原理类似于2.3所述, 把数字平均分成左、中、右3部分, 在每个部分中分别以垂直方向的扫描线从上到下穿过数字, 计算每条扫描线穿越黑像素区域的交点数, 在左部分得到的最大交点数定义为该数字的左过线数, 在右部分得到的最大交点数定义为该数字的右过线数, 在X固定时得到的交点数定义为该数字在X处的过线数。
以数字9为例, 如图4所示。
显而易见:数字9的左过线数为3, 右过线数为3, 在1/2宽度处的过线数为3, 在左1/3宽度处的过线数为3, 在右1/3宽度处的过线数为3。
以上述原理为依据, 我们以宋体为例, 对数字0~9进行特征抽取, 得到它们的特征值, 如表1所示。
3 识别标记
根据表1中的特征值, 我们构造了编码器, 进行数字识别。
3.2 基于编码的识别算法
由表2易知, 每个数字的编码表不完全相同, 所以可由此编码器识别出数字0-9。我们将此算法具体应用于身份证图像中编号数字的识别。先对身份证图像中的编号数字进行定位分割后, 将待识别字符作一次行扫描, 抽取水平方向的过线数和横线特征;再作一次列扫描, 抽取垂直方向的过线数和竖线特征。再利用表2的编码, 对数字进行识别。
整个识别流程, 如图5所示。
3.3 识别数字数字身份
实验中, 我们用Visual C++6.0编制了所有软件, 在PC K6-2 300 (32MB内存) 上对300张身份证图像中的编号数字进行识别, 识别统计结果如表3所示。实验表明该算法简洁、快速、可靠、实用、抗干扰性强。
3.1 过线数构造编码
分析表1中的特征值, 我们以上横线、下横线、左竖线、右竖线、上过线数、右过线数、上1/3高度处的过线数构造编码器, 如表2所示。表数字的编码器
您可能关注的文档
最近下载
- 家政讲师师资培训课件.ppt
- 细菌群体感应信号分子及其检测方法.docx VIP
- 【基于企业作业成本法的企业成本控制研究的国内外文献综述4000字】.docx VIP
- 2025年中级注册安全工程师之安全生产技术基础题库(考试直接用).docx VIP
- 10.2捍卫国家利益课件.pptx VIP
- 2025年中级注册安全工程师之安全生产技术基础题库及参考答案【考试直接用】.docx VIP
- 人教版物理九年级上册《第十六章 电压 电阻》大单元整体教学设计.docx
- 中文书名《我的姐姐罗莎琳·富兰克林》.doc VIP
- 2025年中级注册安全工程师之安全生产技术基础考试题库附参考答案【考试直接用】.docx VIP
- 【MOOC期末】《中国马克思主义与当代》(北京科技大学)期末慕课答案.docx VIP
文档评论(0)