- 0
- 0
- 约1.12万字
- 约 17页
- 2026-01-22 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN113159023B(45)授权公告日2025.01.10
(21)申请号202110273068.7
(22)申请日2021.03.14
(65)同一申请的已公布的文献号申请公布号CN113159023A
(43)申请公布日2021.07.23
(73)专利权人西北工业大学
地址710072陕西省西安市友谊西路127号
(72)发明人王鹏郑财源
(74)专利代理机构西安凯多思知识产权代理事务所(普通合伙)61290
专利代理师刘新琼
(51)Int.CI.
GO6V20/62(2022.01)
GO6V10/82(2022.01)
GO6N3/0464(2023.01)
GO6N3/0455(2023.01)
GO6N3/09(2023.01)
(56)对比文件
CN114973222A,2022.08.30审查员张洪发
权利要求书2页说明书6页附图1页
(54)发明名称
基于显式监督注意力机制的场景文本识别
方法
(57)摘要
CN113159023B本发明涉及一种基于显式监督注意力机制的场景文本识别方法,属于场景文本识别领域。在第一部分中,采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码,得到特征图和全局表示。第二部分中,结合先前预测字符信息、位置信息和全局表示进行字符间关系建模,再根据特征图,生成注意力权重,并将该权重乘以特征图得到单个字符的特征,该特征输入到前馈神经网络得到预测的字符,再进入下一个字符的预测识别过程,以此类推,直到得到识别结束标识符。本方法在预测每一个时刻,能够自动定位到该区域的特征,
CN113159023B
CN113159023B权利要求书1/2页
2
1.一种基于显式监督注意力机制的场景文本识别方法,其特征在于步骤如下:
步骤1:注意力机制的标签制作:
在合成场景文本数据集SynthText中提供了图片中每一个字符的边界框信息,根据该信息制作了注意力机制的标签,用于对注意力进行显式监督训练;具体为:
模型输入的图片大小为400×128,其中宽400,高128;在编码阶段,在ResNet的每一个layer的每一个block上添加了注意力的监督信号;这四个阶段的空间注意力权重图的大小分别为100×32,50×16,25×8,25×8,为此制作了相应大小的标签;先根据原图和注意图权重大小的比例将字符的边界框缩放到相应的大小,然后生成注意力标签,在字符边界框里面的值为1,在字符边界框外面的值为0;在解码阶段,需要为解码步骤的每一个注意力机制制作对应的标签,每一个标签的大小都是25×8;首先还是将字符边界框缩放到对应的大小,但是注意力标签的值只有在属于当前字符边界框之内的才为1,否则为0;
步骤2:场景文本图片预处理
为了使得输入模型的图片大小为400×128,把图片尺寸使用双线性插值的方法将尺寸调整到400×128;训练时使用的数据增强方式为随机裁剪、改变图像的亮度、对比度、饱和度和色调;
步骤3:基于显式监督注意力机制的ResNet的场景文本图片特征提取
将图片预处理后得到的张量400×128×3输入到ResNet34的特征提取层中;在ResNet34的四个layer的每一个block中,都添加了通道注意力和空间注意力机制CBAM;
将ResNet34最后一层的步长step由2改为1;经过特征提取之后得到F,F∈R25×8×512,再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G,G∈R1×1×1024,同时对F进行1×1卷积得到F’作为最终提取到的特征,F’∈R25×8×1024;
步骤4:基于显式监督注意力机制的Transformer结构的特征解码
在解码的时间步t,根据之前预测得到的字符embedding之后再与位置信息position
embedding相加得到E,E∈R×512,再与全局表示G拼接在一起得到向量C,C∈R×1024,输入到自注意力模块,进行字符之间关系的建模;在二维注意力模块,将自注意力模块的输出当作Q,将编码得到的特征F’当作K和V,在每一个时间步计算得到当前需要关注的特征向量S,S∈R1?24;在自注意力模块和二维注意力模块都会加上位置前馈层
您可能关注的文档
- CN112835916B 基于api接口的业务处理方法、设备及计算机可读存储介质 (卓望数码技术(深圳)有限公司).docx
- CN112884168B 用于跨站点学习的系统和方法 (上海联影智能医疗科技有限公司).docx
- CN112903545B 一种多通道传感系统和检测方法 (华侨大学).docx
- CN112906394B 地址识别方法、装置、设备和存储介质 (北京字节跳动网络技术有限公司).docx
- CN112908417B 功能序列和结构模拟相结合的基因挖掘方法、nadh偏好型草铵膦脱氢酶突变体及应用 (浙江工业大学).docx
- CN112934823B 一种物料智能识别自动清洗整理设备及方法 (古田县庄鑫菌业有限公司).docx
- CN112948662B 一种推荐方法、装置和用于推荐的装置 (北京搜狗科技发展有限公司).docx
- CN113011292B 一种光学传感像素电路及其驱动方法、传感器和显示面板 (京东方科技集团股份有限公司).docx
- CN113011603B 模型参数更新方法、装置、设备、存储介质及程序产品 (深圳前海微众银行股份有限公司).docx
- CN113032568B 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 (同方知网(北京)技术有限公司).docx
原创力文档

文档评论(0)