- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
图神经网络在公共事务文档布局分析中的基准测试
MiguelLopez-Duran,JulianFierrez,
AythamiMorales,RubenTolosana,
OscarDelgado-Mohatar,andAlvaro
Ortigosa
SchoolofEngineering,Univ.AutónomadeMadrid(UAM),28049Madrid,Spain
{miguel.lopezd,julian.fierrez,aythami.morales,ruben.tolosana,
oscar.delgado,alvaro.ortigosa}@uam.es
本
译摘要数字原生PDF文档中文件布局的自动分析仍然是一个具有挑战性的
中问题,这是因为文本和非文本元素排列的异质性和便携式文档格式中文本
元数据的不精确性。在这项工作中,我们对图神经网络(GNN)架构进行
2
v了基准测试,用于从数字原生文档中进行文本块的细粒度布局分类任务。
9我们引入了两种图构建结构:-最近邻图和全连接图,并通过预训练的文
9
6本和视觉模型生成节点特征,从而避免手动特征工程。评估了三种实验框
4架:单模态(文本或视觉)、拼接多模态以及双分支多模态。我们对四个基
1.础GNN模型进行了评估,并将它们与基线进行比较。我们的实验特别是
5在一个丰富的公共事务文档数据集上进行的,该数据集包含超过个来
0
5源(例如,地区和国家级官方公报),K份PDF文档,总共K页。
2结果显示,在双分支配置中操作-最近邻图时,GraphSAGE实现了最高
:
v的每类和总体准确率,并在某些来源上超过了基线。这些发现证实了通过
i
xGNN探索的局部布局关系和多模态融合对于分析原生数字文档布局的重
r
a要性。
Keywords:图神经网络·文档布局分析·数字文档分类。
1介绍
数字文档数量的增加,产生了对能够自动处理文档内信息的准确、高
效和可扩展算法的需求。这些文档中有很大一部分存储在便携式文档格式
(PDF)中,该标准最初由Adobe开发,并于2008[14]标准化。PDF的广
泛采用主要是因为它能够在不依赖使用的软件、硬件或操作系统的情况下呈
现文档,以及支持加密、压缩、数字签名和编辑等功能。
2M.Lopez-Duran,J.Fierrez,A.Morales,etal.
由于这些优势,PDF已经成为公共管理和私营公司中文档管理的标准
格式。然而,对PDF文档的自动处理仍然是一个具有挑战性的任务。提取
和分析相关信息需要理解文档内各种元素之间的结构和关系,特别是文本
块,因为它们根据在文档中的语义角色提供了不同的信息。
文档布局分析(DLA)通过旨在检测和分类文档的基本组成部分来应对
这一挑战。此任务对于数字文档的自动处理至关重要,因为它构成了知识提
您可能关注的文档
- 一种用于分析基于变换器的语言模型的自由概率框架-计算机科学-变换器-自由概率论-谱理论-语言模型.pdf
- 神经光谱带生成用于音频编码-计算机科学-机器学习-音频编码-频带复制-生成对抗训练.pdf
- 性能剪枝:使用 mBERT 在低资源 Konkani 中高效分类惯用语和比喻-计算机科学-自然语言处理-神经网络.pdf
- GRID-LOGAT:基于网格的局部和全局区域转录用于视频问答-计算机科学-大语言模型-视觉语言模型-视频分析.pdf
- 揭示多语言轻度认知障碍检测中的多图像描述通过对比学习方法-计算机科学-机器学习-轻度认知障碍-多语种和多模态分析-语音和语言处理.pdf
- 测量信息失真在分层超长小说重构中的比例: 最优扩展比例-计算机科学-人工智能-大语言模型-小说生成框架.pdf
- 学习多帧和单目先验以估计动态场景中的几何结构-计算机科学-计算机视觉-动态场景视频.pdf
- 基于细胞的 Potts 代理模型的替代建模作为使用 U-Net 神经网络架构的分割任务-计算机科学-计算模型-机器学习-算法.pdf
- ReCA: 一种参数化 ReLU 复合激活函数-计算机科学-深度神经网络-深度学习.pdf
- 采用大型语言模型进行自动化系统集成-计算机科学-机器学习-服务组合-服务发现-大型语言模型-开放 API.pdf
- 恢复电力网格优化中的可行性:一种反事实机器学习方法-计算机科学-机器学习-深度学习-电力网络.pdf
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)