基于BP神经网络清水江文书识别系统研究.docVIP

下载本文档

3
0
约3.05千字
约 7页
2018-08-27 发布于福建
举报
版权申诉

基于BP神经网络清水江文书识别系统研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于BP神经网络清水江文书识别系统研究

基于BP神经网络清水江文书识别系统研究　　摘要：文章针对部分清水江文书保管不善，破旧、污损严重，人工难以识别的特点，建立了基于BP神经网络的清水江文书识别系统，该系统以Matlab技术实现，初期所挑选的待识别汉字都是书写较标准规范的汉字图像，系统所使用的识别样本库是HCL2000国家脱机手写汉字标准数据库。测试结果表明，本系统对书写规范的汉字识别率较高，能达到85%以上，而对一些错别字、繁体字、异形字识别率较低。　　关键词：BP神经网络；清水江文书；分类器　　1 概述　　清水江文书，又名锦屏文书，主要是指一些山林经营和木材贸易方面的民间契约和交易记录，是贵州清水江流域苗族侗族人民创造和保存的一种民间文献遗产，具有多学科研究价值，2010年2月被列入《中国档案文献遗产名录》。　　但是，正因为其长期在民间保存，没有很好的外部环境，导致很多文书破旧、污损，识别困难。一直以来，都是依靠人工识别文书，效率低下，不能及时有效的再现清水江文书的价值。如何快速高效的识别出文书上的字，是一直困扰研究人员的问题，本系统就是利用脱机手写汉字识别技术，结合清水江文书自身特点，希望能研究出一种自动识别出清水江文书的方法。　　虽然清水江文书的识别本身也属于脱机手写汉字的识别，但因其特殊性，即便前期进行预处理，也比一般意义上的手写汉字更难于识别。因此，本系统设计初期从清水江文书中所挑选的待识别汉字都是书写较标准规范的汉字图像。　　2 基于BP神经网络的识别系统设计　　BP神经网络是一种多层神经网络，通常具有三层或三层以上，其左、右各层之间每一个神经元都有连接，而上下层神经元之间无连接。　　2.1 图片预处理　　对输入的整个文书图像要先进行一些必要的处理，从中正确切分出单个的手写汉字图像，形成单个汉字图像阵列，以便对其进行后期的单字识别处理。因清水江文书是采用从右向左、自上而下的竖直书写方法，所以我们的采用的方法是先自右向左逐列对图像进行扫描，同时对各个扫描列的像素进行计算，得到图像垂直的投影，再利用文字每列之间存在的空白间隔，对其进行列分割，最后再依据字和字之间空白间隔的投影空隙把单个的汉字图像切分出来。　　切分出的单个汉字图像还要进行二值化、去噪、大小归一化与位置归一化、细化、倾斜矫正等处理，这样处理的是目的为了提高汉字抽取特征的准确率，从而保证最终文字识别的正确率。如图2以常见的“立、卖”两个字为例，经过预处理后，文字大小一致，暗陈的背景与多余的墨迹都被处理掉了。　　2.2 手写汉字的特征提取　　对手写汉字识别特征提取可以有多种方法，本系统中采用了模板法，即在单个待识别汉字图形上定义一个N×N模板，将每个汉字样本的长度和宽度N等分，平均有N×N个等份，对每一份内的像素个数进行统计，除以每一份的面积总数，即得特征初值。　　虽然N值越大，特征越多，区分文字的能力越强，但同时计算量增加，计算机时间变长，所需要的样本库也成倍增加，一般样本库的个数为特征数的5-10倍，本系统中特征总数为5×5=25个，每一种字就需要至少125个标准样本，如果样本数过少，不同文字之间的区分就较难。　　本文实验所使用的是HCL2000汉字库，所挑选的待识别汉字都是书写标准规范的汉字。与国内外其它的数据库相比，该数据库具有样本量大且可以实现汉字样本库和书写者信息库间互查的特点。　　2.3 BP神经网络分类器设计　　2.3.1 BP神经网络分类器结构设计　　我们设计的BP神经网络结构有三层：输入层、隐含层、输出层，其结构图如图1所示。系统中对文字提取了5×5=25个特征作为神经网络的输入，因此，输入结点为25个，通常隐含层结点个数大约为输入层结点数的两倍，所以隐含层取50个结点，而输出层取4个结点，这4个输出为四位二进制数，代表神经网络输出的文字类型。　　2.3.2 BP神经网络调整参数Matlab实现方法及实现步骤　　（1）初始化输入、输出矩阵p[ ]、t[ ]。p为训练样品，t为训练样品所属的类别。　　（2）在样品被训练前，需要构建BP神经网络，设置参数调整方式。Matlab的newff函数具有构建BP神经网络的功能，为选择不同的调整BP网络参数方式，只需修改newff函数最后一个参数，该参数代表调整BP神经网络连接权值和阈值的方法。本系统采用梯度下降法调整BP参数，将最后一个参数设置为′traingd′，与′traingd′有关的调整参数如表1所示：　　其中，学习速率是最重要的参数，权值和阈值的调整量就是由它和负梯度的乘积决定的，学习速率越高，调整步伐越大。然而，学习速率过高，算法会变得不稳定；但是如果学习速率过低，算法收敛的时间就会增长。训练过程中，只要满足下面五个条件之一，训练就会停