图像文本定位技术研究.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE PAGE 1 图像文本定位技术研究   摘要:图像文本定位是图像中文本识别的关键步骤。介绍了文本图像的分类及特征,分析了图像文本定位常用算法的应用范围及优缺点,提出了文本定位算法的评价方法,阐述了文本定位的应用领域,并对今后文本定位的研究方向进行了分析。   关键词:图像文本定位;图像文本识别;图像检索   中图分类号:TP391文献标识码:A文章编号:1007-9599(2013)01-0016-03   图像中的文本通常描述了图像的有效信息,如路牌、字幕、商店招牌等。如果将图片中的文本自动地识别出来,对图像高层语义的自动理解、索引和检索是非常有价值的。大多数图像中的文本具有相对明显的特征,可通过计算机图像处理技术进行文本定位和分离,再通过较为成熟的文字识别技术,就能将图像中的文本提取出来。图像文本识别已成为数值图像处理领域的研究热点。   图像文本的识别主要包括以下部分:(1)获取图像;(2)对获取图像进行预处理;(3)检测图像中包含文本的矩形区域,进行文本定位;(4)将文本从图像中分离出来,并通过光学字符识别系统(OCR)进行文本识别;(5)保存识别结果。其中第3步图像文本定位是最为关键的步骤,成为研究的重点和难点。   1图像中文本的分类及特征   1.1图像中文本的分类   图像中的文本分为人工文本(ArtificialText)和场景文本(NaturalSceneText)。人工文本是指使用图像处理工具对获取的原始图像进行后期编辑,人为加在图像上的文本,如新闻视频中的字幕。场景文本是指在图像获取时就存在于场景中的文本,随场景一同生成到图像中,其本身是场景的一部分,如广告牌,路标,海报等。   人工文本多为视频的字幕或图片的文字说明,为了方便人们阅读,人工文本与背景的对比度较强,文字颜色一致,排列整齐,文本内容与图片内容的相关性强。场景文本的规律性较差,文字的方向、大小、字体没有限制,颜色变化较大,文本与背景的对比度跟环境有很大的关系。由于获取图像时的投影变换关系,图像中的文字可能会发生旋转、缩放等变形,加上拍摄角度,光照等因素的影响,其定位难度较人工文本大。   1.2图像中文本的特征   (1)文本的颜色特征。大多数情况下,同一区域中同一行文字,其颜色、色调、亮度等属性相同或相似,与图片背景有较大的对比度。人工文本尤其如此。但也有不一致的情况,如颜色渐变的艺术字,广告中的文字等。   (2)字符的大小。同一行文字,字符大小基本一致。但同一图像中的文字大小,可能差别很大,大的可能占到图像面积的80%以上,而小的则只有几个像素。由于太小的字符,识别率不高,像素低于10的字符通常被删除。   (3)字符的边缘。由于字符与图像背景间具有一定的对比度,因而字符与背景间都有较突出的边缘,这为通过边缘检测进行文本定位提供了依据。边缘包含边缘强度和边缘方向两个要素。不同的文字,边缘的方向不同,如英文和汉字的边缘方向集中在水平、垂直和45°方向,而拉丁文的边缘方向集中在垂直方向。   (4)其他特征。同一行文字中,字符的间距相等。字符的宽和高在一定的比例范围内。文本区域具有高填充率、高频率等纹理特征。   2图像文本定位的主要方法   2.1基于文本边缘的方法   为方便阅读,文本与图像背景存在较大的对比度,从而在文本与背景间形成较强的边缘。文本边缘具有边缘强度和边缘密度两个特征。对于简单背景的图片,边缘密度特征明显;对于复杂背景的图片,边缘强度特征明显。基于边缘的文本定位主要步骤包括:(1)检测图像的边缘密度和强度;(2)通过平滑滤波、形态学膨胀、区域合并等方法检测到可能包含文本的矩形区域,形成候选文本区域;(3)根据文本的一些启发性规则(如字符的宽高比,边缘密度,边缘方向,填充率等)去除非文本块,获得最终的检测结果。   基于边缘的文本定位方法,优点是速度较快,对于文本边缘较突出,图像背景边缘较少,背景边缘与文本边缘的交叉连接不多的图片,其定位准确率高,误判率低。但对于背景边缘比较复杂、噪声较大的图片,文本定位的结果不理想,需要与其他方法结合起来,进行文本的定位。   2.2基于连通区域的方法   基于连通区域的方法主要利用同一区域文本颜色相近、边缘密度高等特性。采用自底向上的方式,使用颜色聚类、阈值、区域生长等方法把图像分成一些小的区域,然后根据一定的规则,将这些小的区域连接成大的区域,形成候选文本区域集合。再利用区域大小、宽高比、占用率、边缘强度等启发性规则来滤除非文本区域,获得真正的文本区域。   基于连通区域方法的优点是实现比较简单,对于文本和背景比较单一的图像,该方法的准确率高。其缺点是对于文本颜色丰富,分辨率低,噪声高的图像,定位准确性差,甚至将一个字符分成几个文本块。另外,在滤除非文本区域时,用

文档评论(0)

gmomo-lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档