- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度学习的身份证二维码识别算法
随着计算机科学的发展和多段制应用的发展,身份快速识别技术越来越受到重视。传统的身份证识别方法主要有2种:一种是通过芯片扫描设备读取身份证内嵌芯片信息, 该方法需要专用的芯片识别装置, 成本较高, 且便携性不足;另一种方法是手动登记, 效率低下且容易出错。近几年来, 模式识别理论以及图像处理技术的发展为利用光学图像实现证件识别奠定了理论基础, 具备拍照功能的智能手机广泛使用为证件识别提供了硬件平台。基于光学摄像头图像处理及模式识别理论的光学字符识别 (optical character recognition, OCR) 在社会生活的各个行业得到了广泛的使用, 如车牌识别、扫码支付等。OCR在文字识别方面具有高速、高效、低成本的优势。
人工神经网络是对动物神经网络的简单模仿, 依靠系统的复杂程度, 通过调整内部大量节点之间的相互连接关系, 从而达到处理信息的目的, 被广泛应用于语音分析、图像识别、数字水印、计算机视觉等很多领域, 取得了许多突出的成果
1 编码编码的切割
在实际应用中, 我们可以通过设定拍摄窗口的方式获得身份证的整个版面信息, 如图1 (a) 是自然拍摄得到的一个身份证图片。为了减少数据的处理量和提取身份证号码区域, 将拍摄得到的RGB图片做灰度化处理。Ostu是一种常用的二值化方法, 通过统计整个图像的直方图特性来实现全局阈值的自动选取, 图像像素能够根据阈值被分成背景和目标2部分。
图1 (a) 是自然拍摄得到的身份证照片, 对其进行ostu运算后得到二值化图像如图1 (b) 所示。观察身份证可知号码行与其他信息部分之间有明显的间隔, 可以通过对图1 (b) 进行投影统计法来提取身份证号码行内容。遍历二值化图片, 将其黑色像素点往水平方向投影, 统计每一行黑色像素点数目如图2 (a) 所示。
观察图2 (a) 可知, 最右侧的波柱对应着身份证号码行, 可以通过设置阈值来实现对号码行的切割, 最终切割效果如图2 (b) 所示。
同理, 将提取到的身份证号码行进行垂直方向的投影, 统计每一列黑色像素点的数目, 选取合适阈值即可获得每个数字的字符图片。一般而言, 投影得到的数字图片高度是一致的, 但是宽度并不一致。为了规范神经网络的输入, 我们需要对其进行大小归一化。数字图片的宽高比例大概为3∶4, 所以本文统一将图片归一化为宽15 pix, 高20 pix (即15×20) 大小。
图片大小归一化的常用方法有双线性插值法、最近邻法、面积插值法等。本文使用线性插值法来归一化图片大小, 双线性插值法工作如下:设原图高宽为height X×width Y, 原图像素坐标用 (x, y) 表示, 要变换为高宽height I×width J的目标图, 目标图像素坐标用 (i, j) 表示, 变换公式为
对于目标图中的 (i, j) 点, 通过式 (1) 可以找到在原图中对应的一个点 (x, y) , 取点 (x, y) 十字方向上的4个点 (x-1, y) 、 (x+1, y) 、 (x, y-1) 和 (x, y+1) 的像素值来确定目标图中的 (i, j) 点的像素值。
式中s
2 从简单特征中提取更复杂的特征
深度学习是机器学习的一个分支, 它除了可以学习特征和任务之间的关联之外, 还能自动从简单特征中提取更复杂的特征。多层神经网络可以解决异或运算。文献
2.1 网络生成神经元的分类
搭建神经网络一般采用分层结构, 输入层作为第一层神经网络, 该层的每一个输入神经元对应特征向量中每一个特征的取值, 同层节点彼此独立没有任何连接, 按照传递方向每层节点只与后一层节点连接直至到输出层。传递是有方向性进行的, 传递路径不可逆。在输入层和输出层之间的神经网络叫做隐藏层。网络中所有的神经元具有完全相同的结构。
图片识别问题的本质是图像分类
本文通过自然拍摄687张身份证图片 (包含0~9个数字和英文字符X) , 并对其做如第1章的切割处理, 得到的像素宽高为15 pix×20 pix的二值化图片共12 366张, 将其中8 280张图片作为训练集, 其余4 086张图片作为测试机, 训练集和测试集图片相互独立、没有重叠。
2.2 化策略优化
结合BP算法和梯度下降法来优化网络中参数的取值。参数调优是使用神经网络时最为关键的步骤之一, 优化策略的优劣直接影响了网络最终的识别性能。梯度下降法能将单个参数更新迭代到局部最优值, 反向传播算法给出了一个高效的方式能在所有参数上使用梯度下降算法
用θ表示神经网络中的参数, J (θ) 表示在参数为θ时网络模型在训练集上损失函数, 则优化过程就是寻找一个参数θ, 使得J (θ) 最小。
2.2.1 过大的超参数会导致极优值被重塑
学习率用来控制每次参
文档评论(0)