基于小波分形特征提取的汉字识别方法-计算机软件与理论专业论文.docxVIP

基于小波分形特征提取的汉字识别方法-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于小波分形特征提取的汉字识别万法 基于小波分形特征提取的汉字识别万法 第2页 摘要 伯前,脱机手写汉字的识别率总是不够理想,其中的问题之 一是汉字特征提取的问题,主要反映在汉字的统计特征与结构特 征的结合上√u本文提出了一种汉字识别技术中能够很好的反映统 计特征与结构特征的汉字特征提取的新方法。 首先在理论上,我们通过对小波技术与分形技术的研究发现, 分形的自相似性或无标度性可以较好的反映结构的繁杂程度和不 规划性等统计特性。而小波分析的良好时一频特性以及多尺度多 分辨率特性是研究精细结构的理想工具(又称为数字显微镜), 可以较好的反映结构特征。,因此结合分形维数的统计特征和小波 变换提取的结构特征,既可以充分发挥统计特征良好抗干扰、抗 噪声的优点,又能发挥结构特征结构敏感性和区分相似字能力强 信息V的特虑,使该方法提取的特征具有良好的统计特征和结构特征的 其次我们对上面的理论研究结果通过实验加以验证。 分袅 我们证明汉字是一种分形,并对汉字的分形性进行了统计 我们计算了国标一级字库共3755个汉字的计盒维数,在计算 过程中,发现几乎任意一个汉字的109N(S)~109(t/S)关系图上 点都比较明显地分布在一条直线上。从该实验结果可以表明:汉 字是具有标度不变性的,也就是说汉字可以看作是一种分形。 我们同时对该字库3755个汉字的计盒维数进行了统计分析, 并得到了如下的结论: (1)汉字的计盒维数介于l和2之间,在1.5附近的汉字最 多。这个结果从直观上来看是合理的,因为汉字比一条直线复杂, . 所以维数大于i,但汉字不能充满整个平面,所以维数小于2。 (2)汉字的维数与笔划的多少很有关系,汉字的计盒维数反 应了汉字笔划的繁杂程度。笔划多,维数就高。但是,维数不是 只单纯地取决于笔划的多少,如汉字“瞩”在国标一级字库中笔 划不是最多,但计算出的维数却最大:对于“不”和“下”,前 者比后者多出一撤,但维数却低一点,也许前者正因为多出这一 撇,使得结构更对称一点,不规则性更小一点,同样,“干”比 基于小波分形特征提取的汉字识剐方法 基于小波分形特征提取的汉字识剐方法 第3页 “千”略微对称,所以维数也略低一点。可见,维数除能表征一 个汉字的复杂程度外,还含有其它的几何信息,如不规则性、对 称性程度等等。 因此可以说汉字的计盒维数是能够较好的反映汉字的统计特 征。 2. 采用小波分解提取汉字结构特征 在实验中,我们对汉字图像进行小波分解,小波对汉字图象 横、竖、对角线的分解,也就是对汉字的“横、竖、撇、捺”结 构进行分解。我们知道,汉字的基本笔画是“横、竖、撇、捺” 4种。据统计,这4种基本笔画在汉字中的出现频率分别为28%、 18%、15%和13%,占了较高的比例,而其它笔画如各种“折”、 “勾”等的出现频率总和仅为25%,且可以看作是由4种基本笔 画复合而成,因此,一个汉字中的“横、竖、擞、捺”4种笔画 及其位置关系,客观上讲代表了其结构特征。 在实验中我们发现: (1)小波分解分辨率的确定是由识别精度与识别速度的折中 得到的。小波分解可以将图像分解为不同分辨率的子图像,我们 可以根据识别精度的要求选择不同分辨率下的子图像作为该汉字 的特征。当然,不同分辨率子图像所包含的信息也是不同的,分 辨率越高信息量越大,但识别速度降低;分辨率越低信息量越小, 但识别速度提高。第一层分解其低频信息大约是原信息的1/2, 第二层分解其低频信息大约是原信息的1/5,我们还可以提取小 波分解第3、4 层的信息,从理论上说,我们可以获得任意比例 的图像信息,由此可见,小波分析用于特征提取具有明显的优点。 但是信息量的大小将同时决定了识别率和识别速度。在使用时需 要对其进行折衷。 (2)小波分解直接获得的系数并不是很理想,需要经过量化 。 编码才更为有效。 (3)图象的预处理对如图像的增强、消噪等对识别率也有很 强的影响。 3.初步识别及其结果分析 (1)识别器的设计 在实验中,我们构建标准的3层BP神经网络作为识别工具, 基于小波分形特征提取的汉字识别方法 基于小波分形特征提取的汉字识别方法 第4页 对提取的特征数据进行简单和初步的识别,以验证该特征的有效 性。 (2)输入层神经元数的选取与构造 , 我们取输入层神经元为4个,分别对应外波分解二层提取的 低频特征和高频(横、竖、对角线)三令特征与分形特征的组合。 小波分解的二层特征是26*26的矩阵,加上分形维数,所以对应 的输入层每个神经元分别具有2626+1的输入。 (3)隐含层神经元数的选取与构造 网络的隐含层可以认为是通过输入层与隐含层之间的权值的 “自组织化”对输入模式进行的特征抽取,并将抽取的特征传输 给输出层。关于隐含层的神经元数的选取尚无理论上的指导,一 般地,隐含层的神经

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档