图像文本定位技术研究.docVIP

下载本文档

5
0
约5.29千字
约 10页
2019-07-21 发布于北京
举报
版权申诉

图像文本定位技术研究.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 图像文本定位技术研究　　摘要：图像文本定位是图像中文本识别的关键步骤。介绍了文本图像的分类及特征，分析了图像文本定位常用算法的应用范围及优缺点，提出了文本定位算法的评价方法，阐述了文本定位的应用领域，并对今后文本定位的研究方向进行了分析。　　关键词：图像文本定位；图像文本识别；图像检索　　中图分类号：TP391文献标识码：A文章编号：1007-9599（2013）01-0016-03 　　图像中的文本通常描述了图像的有效信息，如路牌、字幕、商店招牌等。如果将图片中的文本自动地识别出来，对图像高层语义的自动理解、索引和检索是非常有价值的。大多数图像中的文本具有相对明显的特征，可通过计算机图像处理技术进行文本定位和分离，再通过较为成熟的文字识别技术，就能将图像中的文本提取出来。图像文本识别已成为数值图像处理领域的研究热点。　　图像文本的识别主要包括以下部分：（1）获取图像；（2）对获取图像进行预处理；（3）检测图像中包含文本的矩形区域，进行文本定位；（4）将文本从图像中分离出来，并通过光学字符识别系统（OCR）进行文本识别；（5）保存识别结果。其中第3步图像文本定位是最为关键的步骤，成为研究的重点和难点。　　1图像中文本的分类及特征　　1.1图像中文本的分类　　图像中的文本分为人工文本（ArtificialText）和场景文本（NaturalSceneText）。人工文本是指使用图像处理工具对获取的原始图像进行后期编辑，人为加在图像上的文本，如新闻视频中的字幕。场景文本是指在图像获取时就存在于场景中的文本，随场景一同生成到图像中，其本身是场景的一部分，如广告牌，路标，海报等。　　人工文本多为视频的字幕或图片的文字说明，为了方便人们阅读，人工文本与背景的对比度较强，文字颜色一致，排列整齐，文本内容与图片内容的相关性强。场景文本的规律性较差，文字的方向、大小、字体没有限制，颜色变化较大，文本与背景的对比度跟环境有很大的关系。由于获取图像时的投影变换关系，图像中的文字可能会发生旋转、缩放等变形，加上拍摄角度，光照等因素的影响，其定位难度较人工文本大。　　1.2图像中文本的特征　　（1）文本的颜色特征。大多数情况下，同一区域中同一行文字，其颜色、色调、亮度等属性相同或相似，与图片背景有较大的对比度。人工文本尤其如此。但也有不一致的情况，如颜色渐变的艺术字，广告中的文字等。　　（2）字符的大小。同一行文字，字符大小基本一致。但同一图像中的文字大小，可能差别很大，大的可能占到图像面积的80%以上，而小的则只有几个像素。由于太小的字符，识别率不高，像素低于10的字符通常被删除。　　（3）字符的边缘。由于字符与图像背景间具有一定的对比度，因而字符与背景间都有较突出的边缘，这为通过边缘检测进行文本定位提供了依据。边缘包含边缘强度和边缘方向两个要素。不同的文字，边缘的方向不同，如英文和汉字的边缘方向集中在水平、垂直和45°方向，而拉丁文的边缘方向集中在垂直方向。　　（4）其他特征。同一行文字中，字符的间距相等。字符的宽和高在一定的比例范围内。文本区域具有高填充率、高频率等纹理特征。　　2图像文本定位的主要方法　　2.1基于文本边缘的方法　　为方便阅读，文本与图像背景存在较大的对比度，从而在文本与背景间形成较强的边缘。文本边缘具有边缘强度和边缘密度两个特征。对于简单背景的图片，边缘密度特征明显；对于复杂背景的图片，边缘强度特征明显。基于边缘的文本定位主要步骤包括：（1）检测图像的边缘密度和强度；（2）通过平滑滤波、形态学膨胀、区域合并等方法检测到可能包含文本的矩形区域，形成候选文本区域；（3）根据文本的一些启发性规则（如字符的宽高比，边缘密度，边缘方向，填充率等）去除非文本块，获得最终的检测结果。　　基于边缘的文本定位方法，优点是速度较快，对于文本边缘较突出，图像背景边缘较少，背景边缘与文本边缘的交叉连接不多的图片，其定位准确率高，误判率低。但对于背景边缘比较复杂、噪声较大的图片，文本定位的结果不理想，需要与其他方法结合起来，进行文本的定位。　　2.2基于连通区域的方法　　基于连通区域的方法主要利用同一区域文本颜色相近、边缘密度高等特性。采用自底向上的方式，使用颜色聚类、阈值、区域生长等方法把图像分成一些小的区域，然后根据一定的规则，将这些小的区域连接成大的区域，形成候选文本区域集合。再利用区域大小、宽高比、占用率、边缘强度等启发性规则来滤除非文本区域，获得真正的文本区域。　　基于连通区域方法的优点是实现比较简单，对于文本和背景比较单一的图像，该方法的准确率高。其缺点是对于文本颜色丰富，分辨率低，噪声高的图像，定位准确性差，甚至将一个字符分成几个文本块。另外，在滤除非文本区域时，用