- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然场景下文本定位
自然场景下文本定位
摘要:首先阐述了文本定位的基本流程,然后列举了现有的主要文本定位方法,分析了基于区域、纹理、边缘、角点的文本定位方法和机器学习的文本定位方法的优缺点,详细说明了文本区域验证和文本块区域合并的方法,最后总结了各种文本定位方法。
关键词:文本定位;连通区域;图像纹理;自然场景;区域合并
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)22-5121-05
图像在人类的视觉中起着重要的作用,文本是图像的一种重要信息源,在自然场景中,各种车牌、路标、楼层、商场指示牌、标语等为人们的生活提供重要信息,捕获并识别这些文字信息具有重要意义。
一般来说影响文本定位的因素主要有以下几点:图像中的文本具有不同颜色、大小、排列方向;拍摄图像时抖动或者焦距不合适导致拍摄的文本模糊不清;光照不均匀导致同一文本区域中的字符颜色不一致;文本与背景的颜色对比度低导致图像处理时分割困难;图像中的文本是多种文本组成的,字符间笔画差异大;复杂背景中有很多物体类似于字符,比如树叶、窗户等;场景文本有的与背景中的一些物体相连接,导致后续处理时分割错误。针对这些问题,各个学者根据不同的影响因素提出了不同的文本定位方法,该文重点对当前文本定位的一般过程、重要方法进行分类分析,指出了它的优势和缺点。
1 文本定位的基本流程
2 文本定位的主要方法
文本定位是指从复杂背景图像中找出其中文本所在的位置。根据文本的特征:颜色特征、字符大小、字符边缘、字符间距、纹理特征等,文本定位方法通常分为以下几类:基于连通区域的方法、基于纹理的方法、基于边缘的方法、基于边和角点的方法、基于机器学习的方法。
2.1 基于连通区域的方法
图像连通区域是利用文本区域具有相似的字符颜色和大小这一特性来进行定位,它具有整体性,通常是用颜色聚类或图像阈值化法生成连通域,再根据候选连通域的大小、宽高比等特征使用先验知识限制来获得文本区域。
Kim[3]利用颜色聚类方法把图像分割成许多个区域块,然后根据文本的基本特征去除明显的非文本区,如狭长的线段、不连通的边框等,利用投影分析法进一步提取文本区域,最后将这些文本区域基于先验知识规则进行合并。但是由于过程中的一些阈值需要根据先前经验来决定,所以这个方法的通用性不强。
Cunzhao Shi等人[4]使用MSER建立图模型方法定位文本,首先对原图像进行MSER检测得到连通分量,然后构建图模型,其中MSERs作为图的节点,并且对图定义一个成本函数,通过图割算法最小化成本函数。
Soo-chang Pei[5]等人对输入图像进行颜色量化采用自组织神经网络,然后根据三维彩色直方图对图像进行二值化,首先设置一个合适的梯度阈值,当某一颜色处的梯度大于该阈值时,就认为该颜色可能是文本颜色,并将该颜色所占区域赋值为1;当某一处颜色的梯度小于阈值时,就认为该颜色可能是非文本颜色,就将该颜色所占区域赋值为0,从而得到很多个二值图像区域块。再对各个二值子图像进行形态学处理、连通域分析,得到文本区域,该算法的鲁棒性较强。
颜色特征提取文本区域的优点是颜色对图像区域的方向、大小等变化不敏感,通常对噪声、图像的分辨率、尺寸和方向等的变化具有很强的鲁棒性,是绝大多数基于内容的图像和视频检索的多媒体数据库中使用的特征之一。颜色特征提取的缺点是容易受到复杂背景的影响,对于文本与背景对比度低的较小字符很难定位,针对这个问题,Palaihnaknote Shivakumara等人[6]提出了应用于多方向文本的Fourier-Laplacian方法,对输入图像首先进行傅立叶拉普拉斯滤波平滑噪声,然后运用形态学开运算和最大值不同取得文本簇和非文本簇,再细化文本簇,并把复杂的文本簇分割成多个简单的子文本簇,最后根据文本边缘密度和文本边缘线较直而非文本边缘线较弯曲规则来排除非文本区域,此方法能有效地提取图片文本和场景文本,无论是水平文本还是非水平文本,都能较好的定位,但是理想的低通滤波的阈值不固定,不同的视频或者图片低通滤波阈值不同,该方法的可移植性不太好。
2.2 基于纹理的文本定位方法
如果把图像中的文本看作是一种特殊的纹理,则非文本区域的纹理特征和已知文本区域的纹理特征不同,对各个区域的纹理特征分析,获得空域或频域的纹理特征就可以判断该区域是否是文本区域。基于纹理的文本定位方法检测大小不同字符的方法通常有两种:金字塔分解或者小波分解原始图像,然后对每一层子图像都进行类似处理得到文本区域,最后融合到原始图像上。统计分析描述法是最常用的纹理分析方法,该方法通过统计图像的边界频率、空间灰度依赖关系以及空间频率等来分析纹理,被广泛应用的二阶纹理统计算法如:灰度
文档评论(0)