细化手写体算法的应用与改进.docVIP

下载本文档

11
0
约1.89千字
约 4页
2017-09-10 发布于重庆
举报
版权申诉

细化手写体算法的应用与改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

细化手写体算法的应用与改进朱俊学号0220080198 摘要为了对手写体汉字进行快速准确的识别，本文提出了改进的基于索引表的细化算法。经过实验对比，它的处理速度和细化质量优于其他一些常见算法，取得了较好的识别效果。关键词细化识别索引表引言在自动文字识别系统中，采用细化方法计算的骨架是一个十分重要的预处理步骤。因为骨架包含了文字特征的最有效数字化信息，能对文字进行有效地描述。Pavlidis给出标准化的定义：令R表示一个平面多边形区域内点的集合，?R表示其边界边的集合，P是R内任意一点，M表示?R上到P距离最近的点，即对于?T??R，总存在|PM|?|PT|。如果在?R上存在到P距离最近的点数多于一个，即|{M||PM|?|PT|,?T??R，M??R }|1，则称P为平面多边形区域R的一个骨架点。所有骨架点的集合就称为这个平面多边形区域R的骨架。迄今为止，已有很多细化算法产生，大致可归纳为迭代算法和非迭代算法两大类。(1)不能删，因为它是个内部点，我们要求的是骨架，如果连内部点也删了，骨架也会被掏空的；(2)不能删，和(1)是同样的道理；(3)可以删，这样的点不是骨架；(4)不能删，因为删掉后，原来相连的部分断开了；(5)可以删，这样的点不是骨架；(6)不能删，因为它是直线的端点，如果这样的点删了，那么最后整个直线也被删了，剩不下什么；(7)不能删，因为孤立点的骨架就是它自身。总结一下，有如下的判据：(1)内部点不能删除；(2)孤立点不能删除；(3)直线端点不能删除；(4)如果P是边界点，去掉P后，如果连通分量不增加，则P可以删除。索引表就是根据这样的判断依据做成的。实际应用中，该算法还存在一些缺陷，如图2所示：图2 按定义，图2经过细化后，我们预期的结果是一条水平直线，且位于该黑色矩形的中心。实际的结果确实是一条水平直线，但不是位于黑色矩形的中心，而是最下面的一条边。经过分析，之所以会这样是因为：在从上到下，从左到右的扫描过程中，我们遇到的第一个黑点就是黑色矩形的左上角点，经查表，该点可以删。下一个点是它右边的点，经查表，该点也可以删，如此下去，整个一行被删了。每一行都是同样的情况，所以都被删除了。到了最后一行时，黑色矩形已经变成了一条直线，最左边的黑点不能删，因为它是直线的端点，它右边的点也不能删，因为如果删除，直线就断了，如此下去，直到最右边的点，也不能删，因为它是直线的右端点。所以最下面的一条边保住了，但这并不是我们希望的结果。解决的办法是，在每一行水平扫描的过程中，先判断每一点的左右邻居，如果都是黑点，则该点不做处理。另外，如果某个黑点被删除了，那么跳过它的右邻居，处理下一个点。这样就避免了上述的问题。 3. 实验结果图3给出了改进的索引表细化算法和其他4种细化算法的结果图3 可以看出改进的索引表算法比原始索引表算法要光滑许多，和Hilditch算法和Rosenfeld算法在肉眼上看不出有多少区别。应用于我的手写汉字识别系统，分别用不同的细化算法进行预处理并且训练。取对细化较敏感的垂直和水平投影特征，SVM训练参数相同的情况下，5种细化算法的识别率如下表所示：细化算法 Hilditch Pavalidis Rosenfeld 索引表改进的索引表测试个数 1387 1387 1387 1387 1387 识别个数 1294 1267 1285 1294 1306 识别率 93.3％ 91.3% 92.6% 93.3% 94.2% 可以看出，改进的索引表算法相当于其他的细化算法，在识别率上面还是最优的。算法复杂性方面：由于索引表算法只是计算邻域象素，然后查表，因此时间复杂性为O（n）。 4. 结论本文在实际应用的背景下，针对目前细化算法存在的问题，提出了一些改进方法，并且与其他成熟的算法进行测试比较，取得了较高的识别率。虽然该算法实验效果良好，但仍需在一下方面做除改进：（l）对于笔划交点较多的汉字，该算法仍需要改进。（2）对于汉字中心轴不明显的样本，该算法的细化效果需要进一步提高。虽然本文方法是用来进行手写体文字的识别，但也可用于指纹、工程图等带状图象的骨架计算。[5] Pavlidis.T,Ali.F Computer recognition of handwritten numerals by polygonal approximation[J].IEEE Trans.Systems Man Sybernet.1975-5(6): 610-614