场景文本提取方法应用研究论文.docVIP

下载本文档

5
0
约3.55千字
约 7页
2021-09-07 发布于四川
举报
版权申诉

场景文本提取方法应用研究论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

场景文本提取方法应用研究论文摘要场景图像中的文本提供了重要的语义信息，它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点，本文提出了一种有效的文本提取方法。首先对原始图片进行模糊化处理，然后进行Laplacian边缘提取和二值化，再形态学变化，最后进行连通域分析，实现了场景文本的提取。关键词文本提取；边缘检测；二值化；连通域分析 0引言随着计算机、多媒体以及通讯技术的飞速发展,相当数量的文字信息正越来越多地以图像形式出现[1]。图像中的文字是图像内容的一个重要来源,如果这些文字能自动地被检测、分割、识别出来,则对图像语义的自动理解、索引和检索是非常有价值的[4]。图像文本可以分为人工文本和场景文本。人工文本是指人工加在图像上的文本，场景文本是图像上本身存在的文本，如广告牌或运动员球衣上的号码等。由于场景文本图像具有较为复杂的背景，同时受光线和文本的字体、颜色、位置等因素影响较大，往往很难被检测、提取和识别，因此自动从场景中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为三类:基于连通域的方法，基于纹理的方法和基于边缘的方法[2]。基于连通域的方法速度快,但是当背景复杂或文本与背景颜色相近时分割困难,而基于纹理的方法非常费时而且处理复杂背景时误报比较多。本文根据场景中的文本区域与背景对比度强,存在丰富的边缘信息，因此选择基于边缘检测的文本提取方法对场景文本的提取进行研究。首先对原始图像进行模糊化处理，然后用Laplacian边缘提取降噪，再进行形态学变化，最后连通域分析，从而实现场景文本的提取。实验表明,本文的文本提取方法具有较高的正确率,边界定位较准确。 1场景图像文本的提取过程 1.1图像预处理由于光照等环境因素的影响在图像上会产生许多噪声，又考虑到Laplacian算子去噪能力较差，因此本文在预处理时先对原始图像进行模糊化，滤除图像中的部分噪点。本文用的是3*3的卷积来进行连续模糊。 1.2边缘检测与二值化边缘检测是所有基于边界分割方法的第一步。两个具有不同灰度值的相邻区域之间总存在着边缘。由于场景中文本和背景视觉反差较大，且文本区域具有相当大的一个宽度，与此同时场景文本笔画边缘明显，所以利用边缘检测方法可以较好地提取出场景中的文本边缘。本文采用的是基于二阶微分算子的Laplacian边缘检测算子。该方法对图像中的阶跃型边缘点定位准确且具有旋转不变性的特点，即各向同性的性质。而场景文本正好具有阶跃型边缘的特性，所以说Laplacian算子较适合场景文本的提取。其表达式为：（1-1）使用的Laplacian算子模板如图所示：图1拉普拉斯算子从边缘检测结果来看，在引入经过模糊处理后的Laplacian算子能够在不影响文本边缘提取的前提下能取得很好的去噪效果。缺点是对光线影响较强和质量较差的图片处理过程中损失较大。边缘图像的二值化是很重要的问题，如果阈值过大可能会漏掉一些文字边缘,而阈值过小则可能会使较多的非文字边缘被当作文字边缘处理,导致误检较多。本文针对不同图像采用整体阈值二值化，用最小误差方法求分割阈值。这主要是由于整体阈值算法简单，时间开销小，选择合适的阈值可以取得较好的效果。而且用最小误差方法求整体阈值的算法可以较好地分离背景和文字。 1.3形态学运算形态学将图像信号与几何形状联系起来，利用结构元素的探针收集图像的信息。形态学运算能够对图像上的物体做形状等方面的限制，常用于目标检测等。本文用形态学中的开闭运算和腐蚀膨胀的方法来检测二值边缘密度图像上的文本矩形区域。形态学运算包括以下两步： (1)对二值化的边缘密度图像做7个象素宽度的水平闭运算，连接字符笔画形成矩形区域；再做15个象素宽度的水平开运算，去除孤立的背景； (2)形态学后处理(即在连通域分析后进行的二次形态学运算)：对每个连通域做δ度的膨胀运算和度的腐蚀运算。ε其定义如下： δ＝min(ｈ,ｗ/8)（1-2） ε＝ｗ/4（1-3）其中ｈ，ｗ分别对应连通域的高度和宽度。通过第一步形态学运算去除部分背景区域，将相连的背景和文本分开；第二步形态学运算后图像上只剩下部分规则的矩形区域。实验表明，通过以上两步形态学运算能比较准确的得到文本矩形区域。 1.4连通域分析虽然以上方法可删除大量的非文本区域，但结果中可能还存在不包含文本的矩形区域。因此有必要对二值图像做连通域分析。连通域算法是指从二值图像中标记出所有像素连通的区域