基于仿射变换锚点的文本检测网络的设计.docxVIP

基于仿射变换锚点的文本检测网络的设计.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于仿射变换锚点的文本检测网络的设计 文本检测是计算机视觉的重要组成部分,也是文字识别的必要过程。自然场景下的文字检测目前依然面临很大的挑战,主要是因为自然场景图像中的文字在亮度、模糊、形状、方向等方面有很高的随机性,导致文字检测的难度较大。 近年来,研究者提出了很多的文字检测方法 1 模仿射击变换锚点 1.1 锚点形状的控制 RPN可以进一步加速区域提议的生成过程,采用残差网络(Residual Network,Res Net) RPN使用尺度和宽高比两个参数控制锚点的大小和形状,以便更好地适应不同尺寸的文字。尺度决定锚点的大小,宽高比决定锚点的形状比例。在文字检测中,尤其是自然场景下的图像,文本通常都以非常规形状表现,如果只使用RPN产生的水平锚点,对于场景文字检测来说鲁棒性较差。为了提高网络检测的鲁棒性和准确率,有必要建立一个适应文本形状的检测框架。 1.2 仿射变换区域议题提取 本文所提网络的整体框架使用Res Net 101的卷积层进行特征提取,增加仿射变换参数的RPN对最后一层卷积的特征图进行区域提议。图1为仿射变换区域提议网络结构。 首先,从场景图像上的预测文本实例中生成适应方向和变换的提议,然后对提议进一步回归边界框来适应真实文本区域。由回归层和分类层输出的回归提议信息和分类分数计算回归和分类损失,最终汇总为多任务损失。兴趣区域(Region-of-Interest,Ro I)池化层将带有仿射变换的提议映射到特征图上。最后,通过两个全连接层组成的分类网络将Ro I特征区域分为前景文字区域和背景。 1.3 培训组处理 训练时,图像上文本实例的位置形状坐标由标注真值框4个角的坐标(x 1.4 锚点生成和分类 传统的水平锚点不能进行很好的文字检测,因此本文设计了具有仿射变换的旋转锚点,并且进行了相应的调整和改进。 图2所示的是仿射变换锚点位置形状参数的固定值。其中有6个方向的参数,分别是: 训练数据经过预处理步骤后,一个提议锚点中有6个参数(x,y,h,w,θ,trans_x)。对于特征图上的每个点,生成3×3×6×5共270个锚点。在每个滑动窗口经过的位置上分别生成6×270共1 620个输出,分类层生成2×270共540个输出。根据仿射变换锚点网络在宽度为W、高度为H的特征图上滑动,总共生成H×W×270个锚点。训练数据所给的坐标真值数量较少,如果直接选择为训练结果,容易产生过拟合现象。由于RPN中锚点数量多、形状变化大,因此将锚点作为RPN的候选框进行正负样本分类时,网络会学习这些具有仿射变换属性的锚点。通过计算文本坐标真值框与仿射变换锚点的面积交并比(Intersection-over-U-nion,Io U)来判断检测效果的好坏。正样本定义为:最高的交并比或交并比大于0.7,锚点的方向角度与文本坐标真值的旋转角度小于π/12 1.5 回归损失误差 RPN在候选框生成完成后,还需要使用Faster-RCNN的全连接层对这些候选框进行准确检测。检测过程分为回归网络和分类网络两个部分,损失函数分为分类损失和回归损失:分类损失是指候选框在前景背景分类时的误差;回归损失是指候选框与标注真值框的几何参数的误差。 对于仿射变换锚点,网络采用了多任务损失函数,定义为 式中:p———softmax函数计算的类的概率,p=(p l———分类标签的指示符,l=1为文本,l=0为背景,对于背景不进行回归; v———文本标签预测出的参数组,v=(v L 分类损失与回归损失之间由λ权衡。其中将分类损失定义为 对于边界框回归,背景Ro I被忽略。文字Ro I采用了smooth L 候选框形状参数元组v和v 式中:x,x v θ w w k———任意整数。 仿身变换区域提议网络可以提供大量不同形状的锚点,针对任何仿射变换形状的文本实例都可以在合适范围内拟合形状。 1.6 锚点锚点形状设计 由于引入了仿射变换形状的锚点,在计算Io U时相交面积不再是矩形,因此可能会造成Io U计算不准确,影响网络训练学习。针对新的锚点形状,设计了一种求解任意形状四边形相交面积的Io U算法。输入锚点和标注框的6个坐标形状参数(x,y,h,w,θ,trans_x)转化为4个角的点坐标,通过4个角的点坐标求出凸包形状,即仿射变换锚点和标注框的形状,通过这两个图形分别求出各自的面积和重叠面积,最终可以得到两个仿射变换形状的Io U。 2 仿射变换偏值检测 本文在文字检测公共竞赛数据集ICDAR2015 实验使用一块TITAN X显卡,显存为12 GB,CPU为Intel Core i5-2320@3.00GHz×4,内存为15.6 GB。实验中,网络在前200 000次迭代中的学习率为10 训练时,锚点形状参数中的倾斜角度(θ)和仿射变换变换值(trans_x

文档评论(0)

134****3501 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档