- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K均值聚类文字分割算法探究和实现
基于K均值聚类文字分割算法探究和实现 摘要:多数图像因为背景复杂,文字的结构、颜色、灰度值不确定,导致文字分割困难,复杂背景图像的文字分割近些年受到大量的关注与研究,但多数都是基于某些特定条件进行文字分割或者需要手动设置参数,适用范围具有很大的局限性。针对以上问题提出了一个计算效率高,适应性强而且无监督实现的算法:基于 均值聚类的复杂背景图像的文字分割算法。算法针对文字的笔画特征使用增强的 算子响应度作为判决与反馈条件,自适应的决定出最佳聚类数的值,分割出最佳的文字图像。实验结果表明,对具有复杂背景的文字图像,算法具有较准确的分割效果与实时的分割速度,抗噪声能力也具有一定的优越性。
关键词:文字分割;无监督; 均值聚类; 算子;反馈
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2013) 02-0000-05
1 引言
视频与图片中经常包含大量的文字信息,这些文字具有较高的指向性,文字的提取对于我们检索以及理解视频的内容并做进一步的处理具有重要意义。但由于图像的背景复杂,干扰较多,文字本身的结构信息,颜色,笔画粗细,灰度值都具有不确定性,现有的 技术难以直接识别,将文字从复杂背景中分割出来具有较大的难度。
常用的文字分割算法主要有基于阈值的算法、基于连通域的算法、基于学习的算法。基于阈值的算法是使用较为广泛也是比较经典的算法,主要分为全局阈值法,局部阈值法,基于熵的算法。Otsu[1],Watanabe Y等[2]使用了全局阈值算法分割文字;Niblack[3]提出的局部阈值法主要是对图像进行分区,并且不同的分区使用不同的阈值,较全局阈值具有更强的适用性。后来Sauvola[4]又对局部阈值算法作了改进。局部阈值算法较全局阈值而言虽然能处理更多的退化图像,但是依然主要适用于灰度图像或者单一颜色通道的图像。基于熵的算法是根据不同灰度层之间的熵信息进行文字分割,这种算法也是主要适用于单个颜色通道上的图像或者灰度图像。Kim et al[5],Lienhart和Wernicke[6]等使用基于连通域的方法分割文字,Kim et al[5]在整幅图像中寻找灰度差超过某个阈值的子图像,最后通过合并子图像得到最后结果,Lienhart和Wernicke[6]在文本框的边缘位置取一个像素作为背景种子,并且计算种子的4邻域欧氏距离,对于距离小于一定阈值则生长背景区域,很好的利用了空间信息来分割文本。但是这种算法的前提是文字与背景有较大的反差,而且这种算法需要手动设定参数值,通用性不高。聚类算法作为基于连通域算法的一种,实用且应用广泛,常用的是 均值聚类和高斯混合模型。Lienhart[7],H.M.Suen[8]等使用的聚类算法基于文字具有较为一致的颜色信息这一条件,将文字聚合在一起并且分割出来。 均值聚类算法使用较为广泛,但是每幅图像的颜色信息不确定,而聚类数目又需要手动设定,从而大大降低了算法的自适应性。随着人工智能的发展,基于学习的方法应用越来越广泛,如Hamza et al.[9]采用多层感知分类器(MLP)和自组织映射(SOM)级联的方法来训练样本,将训练好的MLP用作测试。但是基于学习的方法需要大量的训练库,算法效率低,无法满足实时性的要求。
自然场景的文字图像背景复杂,噪声较多,以上算法对于自然场景的文字图像或者适应性较差,或者算法复杂度较高,或者有参数需要人工设定。
事实上,文字图像与非文字图像在特征上还是有一定的差异:
(1)文字虽然没有一个统一的结构,但是汉字的笔画的方向性集中在 , , , 这四个方向;
(2)文字图像中文字区域的颜色变化较小,即使是渐变文字,一般也是一定的颜色渐变范围内。
基于此,本文提出了一种基于 均值聚类的文字分割算法,该算法通过后向反馈机制自适应确定聚类数以及最佳分割结果,因此,算法可以无监督实现,在保证文字分割自适应的前提下,具有较低的复杂度,算法速度可以满足实时性要求。实验结果显示,对复杂场景下的文字图像,本文算法具有较高的分割准确性和较强的抗噪声干扰能力。
2 算法描述
本文算法大体可以分为预处理,后向反馈的自适应 均值聚类,笔画检测,基于连通区域分析的去噪等几个模块,图1给出了算法的流程图。
2.1 预处理
在文字分割之前对文字图像进行预处理对文字分割具有重要作用。直方图均衡可以有选择的增强图像中的低频分量信息(此部分占较多的像素灰度),同时又可以抑制高频分量信息(这部分占较少的像素灰度)。然而传统的直方图均衡在增强图像的同时,很容易丢失部分细节,从而无法有针对性的对文字图像进行处理。分析如图2所示的文字图像的高频分量图2(b)与低频分量图2(c)可以看到,文字边缘在图
文档评论(0)