印刷体汉字识别技术的研究PPT.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
印刷体汉字识别技术的研究PPT

印刷体汉字识别技术的研究 0910321220 沈佳骏 印刷体汉字识别技术的研究背景 印刷体汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理。实际生活中,大量的书信、报纸、杂志内容需要输入计算机,随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。人们要求有一种能将文字信息高速、自动输入计算机的方法,于是印刷体汉字识别技术便应运而生。 印刷体汉字识别技术存在的难点 (1)类别较大 (2)结构复杂 (3)相似字多 汉字的以上几个特点就决定了没有单一的一种特征就可以完成对汉字的识别,因此如何有效的选取各种特征,有效的进行组合,使它们在匹配速度和识别率上都能满足实际需求就成为整个系统的关键。     印刷体汉字识别的流程简介 该系统由输入设备、汉字识别模块和计算机硬、软件三部分组成。核心部分是汉字识别模块部分,印刷体汉字识别的过程主要过程包括预处理、版面分析理解、文本行字切分、特征提取、汉字识别、识别后处理。 系统的Matlab仿真 系统的分析 系统的实现 系统性能的进一步验证 仿真结果分析 系统的分析    本设计要实现的是一个能识别三十二个印刷体汉字的识别系统。由于字库容量较小,因此本设计对系统的预期识别率指标定为100%。 印刷体汉字识别系统采用的是十三点特征提取法和神经网络识别相结合的原理。十三点特征提取法负责提取汉字中的特征点,形成一个1X13的向量,作为神经网络的输入,我们可以实现一个标准库神经网络,由于不同的汉字对应的特征向量不同,当输入相应的特征向量就输出对应的汉字。 待识别文件首先由文件管理器加载。送入图像管理模块,经二值化,转灰度,均值滤波,二值化,行、字切割等图像处理操作后,得到待识别文字的点阵,汉字识别模块从点阵中提取识别特征,通过十三点特征提取,精确匹配识别结果。系统的工作流程如图所示。 系统的实现 特征提取 BP神经网络的建立 BP神经网络的训练 系统的仿真 特征提取 十三点特征所产生的数据形成一个矢量作为神经网络的输入,此数据用于神经网络的训练和识别过程(十三点特征提取的程序见参考附录1)。 BP神经网络的建立   神经网络输出向量中的元素个数由我们的标准库中字符的个数确定,由于所要建立的标准库字符的个数是32,并且因为计算机语言只能识别0和1这二个值,所以神经网络输出向量中最少有5个元素才能搭配出32个不同的数值。神经网络的建立可以参见以下程序: net=newff(minmax(P),[50,40,5],{tansig,tansig,tansig},traingd); 其中P是神经网络的输入向量,{tansig,tansig,tansig}是包含每层用到的传递函数名称的细胞数组。traingd是用到的训练函数的名称。神经网络建立后,需要对神经网络进行训练以产生标准库。训练参数如下所示: net.trainParam.show=100; %每100显示1次 net.trainParam.Ir=0.005; %设置学习速率 net.trainParam.epochs=30000; %设置训练次数 net.trainParam.goal=0; %设置性能函数 net=train(net,P,T); %训练BP网络 save zmn123 net %保存文件名为 zmn123 BP神经网络的训练 神经网络建立后,需要对神经网络进行训练以产生标准库。下图(图4.2.2)是输出向量为五个元素和输入向量为三十二个元素的BP神经网络的训练误差,最终训练误差是0 系统的仿真   系统首先对标准图像(见图4.2.3)进行识别,运行程序后处理过程分别进行转灰度(见图4.2.4),均值滤波(见图4.2.5),二值化(见图4.2.6),经行列切分后得到处理结果(见图4.2.7),最后在命令窗口输出识别结果(见图4.2.8)。   基于这个已建立的标准库,我们通过Matlab程序仿真结果得知,此系统经过自学习后对标准图像中汉字的识别率是100%,系统的技术指标符合我们的预期。   通过对标准图像识别学习训练

您可能关注的文档

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档