细化手写体算法的应用与改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
细化手写体算法的应用与改进 朱俊 学号0220080198 摘 要 为了对手写体汉字进行快速准确的识别,本文提出了改进的基于索引表的细化算法。经过实验对比,它的处理速度和细化质量优于其他一些常见算法,取得了较好的识别效果。 关键词 细化 识别 索引表 引言 在自动文字识别系统中,采用细化方法计算的骨架是一个十分重要的预处理步骤。因为骨架包含了文字特征的最有效数字化信息,能对文字进行有效地描述。Pavlidis给出标准化的定义:令R表示一个平面多边形区域内点的集合,?R表示其边界边的集合,P是R内任意一点,M表示?R上到P距离最近的点,即对于?T??R,总存在|PM|?|PT|。如果在?R上存在到P距离最近的点数多于一个,即|{M||PM|?|PT|,?T??R,M??R }|1,则称P为平面多边形区域R的一个骨架点。所有骨架点的集合就称为这个平面多边形区域R的骨架。迄今为止,已有很多细化算法产生,大致可归纳为迭代算法和非迭代算法两大类。(1)不能删,因为它是个内部点,我们要求的是骨架,如果连内部点也删了,骨架也会被掏空的;(2)不能删,和(1)是同样的道理;(3)可以删,这样的点不是骨架;(4)不能删,因为删掉后,原来相连的部分断开了;(5)可以删,这样的点不是骨架;(6)不能删,因为它是直线的端点,如果这样的点删了,那么最后整个直线也被删了,剩不下什么;(7)不能删,因为孤立点的骨架就是它自身。 总结一下,有如下的判据:(1)内部点不能删除;(2)孤立点不能删除;(3)直线端点不能删除;(4)如果P是边界点,去掉P后,如果连通分量不增加,则P可以删除。索引表就是根据这样的判断依据做成的。 实际应用中,该算法还存在一些缺陷,如图2所示: 图2 按定义,图2经过细化后,我们预期的结果是一条水平直线,且位于该黑色矩形的中心。实际的结果确实是一条水平直线,但不是位于黑色矩形的中心,而是最下面的一条边。 经过分析,之所以会这样是因为:在从上到下,从左到右的扫描过程中,我们遇到的第一个黑点就是黑色矩形的左上角点,经查表,该点可以删。下一个点是它右边的点,经查表,该点也可以删,如此下去,整个一行被删了。每一行都是同样的情况,所以都被删除了。到了最后一行时,黑色矩形已经变成了一条直线,最左边的黑点不能删,因为它是直线的端点,它右边的点也不能删,因为如果删除,直线就断了,如此下去,直到最右边的点,也不能删,因为它是直线的右端点。所以最下面的一条边保住了,但这并不是我们希望的结果。 解决的办法是,在每一行水平扫描的过程中,先判断每一点的左右邻居,如果都是黑点,则该点不做处理。另外,如果某个黑点被删除了,那么跳过它的右邻居,处理下一个点。这样就避免了上述的问题。 3. 实验结果 图3给出了改进的索引表细化算法和其他4种细化算法的结果 图3 可以看出改进的索引表算法比原始索引表算法要光滑许多,和Hilditch算法和Rosenfeld算法在肉眼上看不出有多少区别。 应用于我的手写汉字识别系统,分别用不同的细化算法进行预处理并且训练。取对细化较敏感的垂直和水平投影特征,SVM训练参数相同的情况下,5种细化算法的识别率如下表所示: 细化算法 Hilditch Pavalidis Rosenfeld 索引表 改进的索引表 测试个数 1387 1387 1387 1387 1387 识别个数 1294 1267 1285 1294 1306 识别率 93.3% 91.3% 92.6% 93.3% 94.2% 可以看出,改进的索引表算法相当于其他的细化算法,在识别率上面还是最优的。 算法复杂性方面:由于索引表算法只是计算邻域象素,然后查表,因此时间复杂性为O(n)。 4. 结论 本文在实际应用的背景下,针对目前细化算法存在的问题,提出了一些改进方法,并且与其他成熟的算法进行测试比较,取得了较高的识别率。虽然该算法实验效果良好,但仍需在一下方面做除改进:(l)对于笔划交点较多的汉字,该算法仍需要改进。(2)对于汉字中心轴不明显的样本,该算法的细化效果需要进一步提高。 虽然本文方法是用来进行手写体文字的识别,但也可用于指纹、工程图等带状图象的骨架计算。[5] Pavlidis.T,Ali.F Computer recognition of handwritten numerals by polygonal approximation[J].IEEE Trans.Systems Man Sybernet.1975-5(6): 610-614

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档