基于遗传算法和粗糙集相结合的脱机手写体汉字识别.docVIP

基于遗传算法和粗糙集相结合的脱机手写体汉字识别.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于遗传算法和粗糙集相结合的脱机手写体汉字识别 摘要:本文将遗传算法和粗糙集理论结合起来解决脱机手写体汉字识别中结构复杂、变形多的超多类模式识别问题。给出了一种基于遗传算法的脱机手写体汉字特征向量约简算法,在不损失原有信息的条件下,减小特征向量维数,降低了识别过程的复杂度。同时给出了一种启发式冗余样本约简方法,约简多余的训练样本,进一步降低识别过程的复杂度。提出了一种基于规则置信度的脱机手写体汉字规则融合识别方法,实验结果表明,本文提出的特征约简方法对脱机手写体汉字多维统计特征的约简效果明显;规则置信度融合识别方法能提高脱机手写体汉字识别系统的可识别率。 关键字:粗糙集,遗传算法,属性约简,特征提取 1 简介 汉字识别是利用一定的光电设备将记在纸或者其它介质上的汉字转化成图像输入到计算机中并对其进行自动辨识。它在文献检索、办公自动化、邮政系统、银行票据处理等方面有着广阔的应用前景,已经成为模式识别领域中一个十分活跃的课题[1-4]。汉字识别可分为印刷体汉字识别(Printed ChineseCharacter Recognition,简称PCCR)和手写体汉字识别(Handwritten ChineseCharacter Recognition,简称HCCR)[5-6]。手写体汉字识别又可分为联机手写体汉字识别(On-line Handwritten Chinese Character Recognition)和脱机手写体汉字识别(Off-line Handwritten Chinese Character Recognition)。联机手写汉字识别是利用书写板把笔画变为一维电信号,处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息;脱机手写汉字识别处理的是二维的汉字点阵图像,是汉字识别领域中的一个十分困难的问题,目前仍然处于实验室研究阶段。 汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征或基元(primitive),每种特征或基元又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具各不相同,形成了种类繁多、形式各别的汉字识别方法。通常可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经网络方法等[7-12]。但这些方法在某一方面或者某些特定场合下能取得良好的效果,然而却不可能顾及各个方面的所有问题。目前手写体字符识别也采用了许多技巧性或者工程技术性很强的方法,缺乏统一严谨的理论去指导研究,给手写体汉字识别的理论研究带来了很大的困难。 脱机手写体汉字识别是一个复杂的超多类模式识别问题。由于脱机手写体汉字字体、字型繁多,汉字数量大,所以选择高效稳定的特征对汉字识别尤为重要。由于单一特征对脱机手写体汉字的表征具有局限性,因此,采用多种特征提取方法提取多维特征来表征汉字,以提高特征向量对汉字表征的有效性和完备性,但同时也带来了特征的冗余星河识别规则的复杂性等问题。 针对脱机手写体汉字识别中采用多种特征时特征冗余性和识别规则的复杂性等特点,本文构建了一种基于粗糙集理论和遗传算法的脱机手写体汉字识别决策信息系统。将信息熵作为粗糙集不确定性的度量,给出一种通过约简冗余条件属性求解决策信息系统约简集的多群体并行遗传算法。并提出了一种基于规则置信度的脱机手写体汉字识别规则融合算法,不仅提高了脱机手写体汉字的识别速度和准确性,也可增加其实用性。 2多群体并行遗传算法(PGA) 粗糙集理论将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论将知识理解为数据的划分,每一被划分的集合称为概念。据此可以将脱机手写体汉字识别理解为对模式空间的划分。汉字特征提取过程将模式空间中的汉字映射到多维特征空间,因此,汉字识别可以进一步理解为对多维特征空间的划分,即对数据的划分[22][34-36]。 知识的约简是粗糙集理论中的核心问题之一,是在保持知识库分类能力不变的情况下,删除其中不相关或不重要的知识[36]。脱机手写体汉字决策信息系统的知识约简就是在保持真实属性与特征属性之间的依赖关系不发生变化的前提下删除不必要的特征与特征值,并根据约简结果提取出所需要的识别规则。 遗传算法(Genetic Algorithm, GA)是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。基于遗传算法求解决策表属性约简问题时首先考虑的就是如何进行编码。把一个问题的可能的解从其解空间转换到遗传算法所能处理的搜索空间的转化方法,称为编码[33]。编码方法会影响交叉、变异等操作,而且编码方法在很大程度上决定了种群的遗传进化运算的效率。常用到的有二进制编码、实数编码、符号编码等。 遗传算法在求解决

文档评论(0)

资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档