- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文档理解对于多模态大型语言模型(MLLMs)来说仍然是一个重要的挑战。虽然先前的研究主要集中在通过精确的多模态查询定位证据页面,但我们的工作调查了一个基本且被忽视的方面:输入格式如何影响文档理解性能。通过系统分析,我们发现原始OCR文本通常会损害而非提升MLLMs的表现,这是一个令人意外的结果,我们认为这是由于注意力分散和结构损失所导致。为了进一步验证我们的假设,我们提出了一种新的保持结构的方法,该方法使用LATEX范式编码文档元素,维持了对理解至关重要的
结构化注意力对
多模态大语言模型文档理解很重要
ChangLiu,HongkaiChen,YujunCai,HangWu,
QingwenYe,Ming-HsuanYang,YiweiWang
vivoMobileCommunicationCo.,Ltd,TheUniversityofQueensland,
UniversityofCalifornia,Merced,
changliu.hapo@,allenhkchen@
Fromthisreport,whichsubgroup
amongHispanicshasgainedmost
confidencefrom2008to2015?Task
Abstract.txt
本….png
文档理解对于多模态大型语言模型
译Existingmethods
(MLLMs)来说仍然是一个重要的挑战。Multimodal/Unimodal
中retrieval
虽然先前的研究主要集中在通过精确的多Contextwindow
1expansion
v模态查询定位证据页面,但我们的工作调evidences
0
0查了一个基本且被忽视的方面:输入格式Task-specificmodelMulti-granularity
understandi
您可能关注的文档
- SERP 干扰网络及其在搜索广告中的应用-计算机科学-电子商务-搜索引擎优化.pdf
- 评估多模态大型语言模型在教育教科书问题回答中的表现-计算机科学-教育人工智能-多模态大型语言模型.pdf
- SignBart - 用于孤立手语识别的新骨架序列方法-计算机科学-人工智能-手语识别.pdf
- 基于大型语言模型的在线商店食品产品信息提取策略评估-计算机科学-大语言模型-食品产品信息提取.pdf
- 评估 RAG 和 HyDE 在 1B 与 4B 参数 Gemma 大语言模型中作为个人助理集成的情况-计算机科学-大语言模型-检索增强生成-个人助理.pdf
- 反向翻译在高质量低资源英语 – 古吉拉特语机器翻译中的饱和点-计算机科学-机器翻译.pdf
最近下载
- 2025贵州黔西南州贞丰县总工会招聘社会工作者5人笔试备考题库及答案解析.docx VIP
- 【2017年整理】厦门港游艇安全管理研究.pdf VIP
- 办公楼保洁服务投标方案(技术方案).docx
- 试论港口工程施工中钻孔灌注桩的施工质量控制措施.doc VIP
- 2024执业药师继续教育临床常用三唑类抗真菌药物及TDM研究参考答案.docx VIP
- 《胎膜早破的指南》课件.pptx VIP
- (2025秋新版)部编版二年级语文上册《第五单元》PPT课件.pptx
- 八年级数学全等三角形单元测试卷.doc VIP
- 2025年福建省南平市笔试辅警协警预测试题(附答案).docx
- 国家基本药物临床应用指南.pdf VIP
文档评论(0)