- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BP算法的数字字符识别技术的研究
1 引言
数字识别技术是图像处理领域中的一个重要研究方向。是计算机应用领域中的热点之一。它又分为在线手写体识别和离线手写体识别。前者系统通过记录手写数字的抬笔、落笔、笔迹上各像素的空间位置,以及各笔段之间的时间关系等信息,对这些信息进行处理,在处理过程中,系统以一定的规则提取信息特征,再由识别模块将信息特征与识别库的特征进行比较、加以识别,最后转化为计算机所使用的文字代码。后者相对于前者没有笔划信息,因此难度更大、应用更广泛,如银行票据、工商报表、财务报表、统计报表等各种表格系统,是目前研究的一个重点,也是一个难点。本文将介绍如何用神经网络反向传播算法(BP算法)实现离线手写体数字的识别。
2 BP算法实现手写数字的简单流程
利用BP算法实现数字识别的简单流程为“预处理“和“BP字符识别”具体如图1所示。
图1 BP数字识别
数字识别的前提工作是将视觉图像转化为可由计算机处理的二值图像,即用给定阈值法把图像中的像素根据一定标准化为两种颜色。但二值化的图像在很多情况下字体模糊,或出现杂乱散布的白点或黑点,给识别造成一定的困难,可采用梯度锐化的方法对图像进行锐化,使模糊的图像变的清晰,同时可以对噪声起到一定的去除作用。
由于识别时只能根据每个数字字符的特征进行判断,所以对锐化后的二值图像还需分割成单个的字符,对字符进行细化。常用的脱壳算法,即从字符的边界逐层移去黑点,直到寻找到一个集合,此集合与其边界相重合(即厚度为1或2)。为了对任意字符的特征提取,还需要对数字字符进行规范化处理,即把字符的尺寸变换成统一大小,字符位置(旋转、平移)纠正。不少人认为把每个字符图像规一化为5×9像素二值图像是最理想的,因为图像的尺寸越小,识别速度就越高,网络训练也越快。而实际上,相对于要识别的字符图像,5×9像素图太小了。规一化后,图像信息丢失了很多,这时进行图像识别,准确率不高。实验证明,将字符图像规一化为10×18像素二值图像是现实中比较理想的。从被分割处理完毕的字符中,提取最能体现这个字符特点的特征向量,代入BP网络之中,对网络进行训练。然后提取出待识别的的样本中的特征向量代入到训练好的BP网络中,就可以对字符进行识别。常用的特征向量的提取方法有逐像素提取法、骨架特征提取法、垂直方向数据统计提取法等。本实验采用的是逐像素提取法。
3 BP神经网络进行数字识别
3.1 BP神经网络结构与描述
BP网络是一种单向传播的多层前向网络。网络除输入输出节点外,还有一层或多层的隐层节点,同层节点中没有任何耦合。输入信号从输入层节点依次传过各隐层节点,然后传到输出节点。每一层节点的输出只影响下一层节点的输出。其节点单元特性(传递函数)通常为Sigmnid型 ,其中,a为 Sigmnid的斜率参数,通过改变参数a,会获得不同斜率的Sigmnid函数。
BP算法的基本思想是:对于一个输入样本,经过权值、阈值和激活函数运算后,得到一个输出,然后让它与期望的样本进行比较,若有偏差,则从输出开始反向传播该偏差,进行权值、阈值调整,使网络输出逐渐与希望输出一致。由此,BP算法是基于最速下降法的,由于最速下降法的固有缺点:易陷入局部极小、收敛速度慢和引起振荡效应,本文在调整权值时使用了增加动量法,该方法加速了收敛速度,并在一定程度上减少了陷入局部极小的概率,但也不能完全克服上述缺点。为了加快收敛速度,还使用了自适应学习率。
3.2 神经网络的设计和训练
将要识别的目标是从0到9的10个数字字符。每个字符被分成5×7的小块进行数字化,分别用一个向量来表示。1 0个含 35个元素的输入向量被定义为一个输入向量矩阵,向量代表某个字母,其相应有数据的位置值为 1,而其他位置值为0。共有两类这样的数据作为输入:一类是在理想的状态下的信号;另一类是用随机方式生成含有噪声的信号。对网络进行快速训练,学习速率初始值选在0、01——0、7之间。连接权值取(-1,1)之间的随机数,期望误差的初始值为(0,1)之间的随机数。
网络通过输出一个具有1 0个元素的输出向量来区分这些数字字符,例如字符1对应的向量,其第一个位置的元素值为 1,而随后位置的元素值都是0。确定好输入输出后可进行网络结构的设计。第1层为输入层,根据以上待识别的数据分析可确定神经网络输入层有3 5 个节点;第2层为隐含层,常规的确定方法是输入层接点的两倍,但依靠经验和尝试的方法来确定节点数目,通过对不同结构网络的误差测试确定本系统隐层结点为10个节点,
第3层为输出层,由目标输出为含有10个数据的向量可知该层有10个节点。隐层和输出层的激活函数均为Sigmnid,即对数S型函数网络结构如图2所示。
图2 对数S
您可能关注的文档
- 农机保管与维护.doc
- 冬春季肉鸡饲养管理要点.doc
- 农村现代流通网络改造与建设思路 免费.doc
- 冲压件工艺质量执行规定.doc
- 冲压基础.doc
- 冶金概论 免费.doc
- 冲突与平衡 析网络时代的公共信息政策研究.doc
- 减少电气化铁道的大地回流降低轨道电位 ——安装综合接地系统 .doc
- 准确掌握打叶复烤中的烟叶配比技术 免费.doc
- 凝固的音乐——对三明古建筑的了解与探究.doc
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)