基于自适应注意力机制的表格结构识别模型.pdfVIP

基于自适应注意力机制的表格结构识别模型.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第51卷第3期化工自动化及仪表449

D0I:10.20030/ki.1000-3932.202403012

基于自适应注意力机制的表格结构识别模型

郑剑锋1.2张广涛12文刘英莉1.2

(1.昆明理工大学信息工程与自动化学院;2.云南计算机技术应用重点实验室)

摘要针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中

表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计

自适应注意力机制,在解码器的每个时间步骤添加语义特征,使模型自主选择关注图像信息或语义特

征。另外,为提升研究效率,对训练图片数量与模型准确率之间的关系进行研究,结果表明合适的图像数

量在70k~100k之间,实验从公开数据集PubTabNet中随机选择100k图片进行训练,模型的TEDS-Struct分

数达到了95.1%。

关键词表格结构识别注意力机制文档智能深度学习模式识别图像描述

中图分类号TP18文献标志码A文章编号1000-3932(2024)03-0449-07

文档中的表格通常承载着特定主题的重要识别视作图像领域的定位或分割任务;使用图像

信息,将文档图像中的表格解析为机器可读的描述方法直接从表格图像中预测出代表结构的

HTML标签是文档智能分析中的一项具有挑战性标签序列。LIY等将表格的每个文本单元视作图

的特色任务[11。表格结构识别的方法多样,许多研节点,使用K临近算法建图,通过图卷积算法处理

究者选择通过编码-解码结构的模型,利用编码每个节点的邻接关系,最终计算出正确的表格结

器抽取图像特征、解码器生成标签。而表格的构[2],这类方法的局限在于建图的难度较大且不

HTML标签同时具有视觉性和非视觉性,已有方适合处理复杂表格。将表格的文本单元视为待识

法只考虑了图像信息,缺乏视觉信息和语义信息别对象进行图像目标的检测也是常见手段,如

的动态融合。CascadeTabNet表格检测网络[3],在定位表区域后

为解决这一问题,笔者在图像的空间注意力进一步检测表单元格,进而解析出表格结构;

基础上,添加自适应注意力模块,为不同标签分ZHANGT等提出了LRCAANet,在特征提取阶段

配语义注意力权重。另一方面,由于公开数据集结合通道注意力机制,成功缩减了模型结构[4]。使

数量庞大,为了提高算法研究效率,笔者研究了用定位、分割方法进行表格结构识别的优点在于

图片数量与模型准确率之间的关系,以找出最合对表单元格位置的识别较为准确,使用同一种模

适的训练集样本数量型即可完成表格定位和结构识别任务,但这类方

1相关工作法通常需要人为设定后处理规则,用于构建表格

目前国内外学者提出了很多基于深度学习单元之间的邻接关系。

的表格结构识别方法,大致可分为3类:将表格视笔者采用图像描述的方式进行表格结构识

作图像使用图神经网络进行处理的方法;将结构别,结合计算机视觉和自然语言处理技术,直接

基金项目:国家自然科学基金(批准号资助的课题;云南计算机技术应用重点实验室开放基金(批准号:

2020103)资助的课题。

作者简介:郑剑锋(1997-),硕士研究生,从事计算机视觉、文档分析的研究。

通讯作者:刘英莉(1978-),副教授,从事机器学习、自然语言处理的研究,lyl@。

引用本文:郑剑锋,张广涛,刘英莉.基于自适应注意力机制的表格结构识别模型[J].化工自动化及仪表,2024,51

(3):449-455.

450化工自动化及仪表2024年

根据表格图片生成表结构的标签序列,避免穴余

文档评论(0)

教师资格证、公共营养师持证人

本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。

领域认证该用户于2024年07月07日上传了教师资格证、公共营养师

1亿VIP精品文档

相关文档