ZonUI-3B：单个消费级 GPU 训练的 30 亿参数 GUI 对齐视觉语言模型-计算机科学-视觉语言模型-图形用户界面定位.pdf

下载文档

0
0
约2.1万字
约 7页
2025-07-28 发布于中国
举报
版权申诉
保障服务

ZonUI-3B：单个消费级 GPU 训练的 30 亿参数 GUI 对齐视觉语言模型-计算机科学-视觉语言模型-图形用户界面定位.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ZonUI-3B：单个消费级GPU训练的30亿参数GUI对齐视觉语言模型

ZongHanHsiehShengJingYangTzer-JenWei

DeepCATLab,NationalYangMingChiaoTungUniversity

{zonghan.ai12,billy004104.ai12,tjwei}@.tw

Abstract

在本文中，我们介绍了ZonUI-3B，这是一个轻量

本级的视觉语言模型（VLM），可以在单个消费级GPU

（RTX4090）上完全训练，并且在GUI定位任务上的性

译能可与更大的模型相媲美。该模型结合了几项关键创

中新：(i)结合来自不同来源的跨平台、多分辨率数据集，

3包括移动设备、桌面和网页界面截图中的2.4万个示例，

v有效解决了高分辨率桌面环境中的数据稀缺问题；(ii)

1图1.总体上不同模型规模的ScreenSpot基准准确性。

9采用两阶段微调策略，在初始跨平台训练建立稳健的

3GUI理解后，再对高分辨率数据进行专门微调以显著提

2高模型适应性；以及(iii)数据整理和冗余减少策略，表发保持高定位精度的紧凑型模型的兴趣增长[8,9]。

6明随机抽取一个较小且减少冗余的子集可以达到与更早期在这方面的工作，如ShowUI[8]，表明轻量级

5大数据集相当的性能，强调了数据多样性而非单纯的数模型仅使用20亿个参数即可在零样本设置中取得具有

2据量。在标准GUI定位基准测试——包括ScreenSpot、竞争力的结果。然而，在包括高分辨率桌面和网页界面

vScreenSpot-v2和具有挑战性的ScreenSpot-Pro上的经在内的多样化GUI环境中实现一致的性能仍然是一个

x验评估突出了ZonUI-3B卓越的准确性，在ScreenSpot重大挑战。较小的模型通常在面对密集布局、不同的屏

a上达到了84.9%，在ScreenSpot-v2上达到了86.4%，超幕分辨率以及与训练分布偏差较大的UI模式时，难以

越了参数少于40亿的先前模型。消融研究验证了平衡进行泛化。这些限制因三个因素而加剧：（1）现有数据

采样和两阶段微调在增强稳健性，特别是在高分辨率集中分辨率多样性有限，这限制了对大规模界面[4]的

桌面场景中的关键作用。ZonUI-3B模型及相关资源可鲁棒性；（2）GUI结构和元素样式的高度变异性，引入

在/Han1018/ZonUI-3B获取。了对布局变化和视觉扭曲[3]的敏感性；（3）跨平台的

数据不平衡问题，特别是在高分辨率桌面示例相对于

移动数据[2]的代表性不足。

1.介绍

为了解决这些问题，我们提出了ZonUI-3B，一个

图形用户界面（GUI）定位——根据自然语言指令轻量级的30亿参数视觉语言模型，优化用于跨平台和

在屏幕上找到正确的UI元素的任务，是构建智能GUI分辨率多样的环境中的GUI定位。尽管其体积小巧，

代理的基础能力。虽然拥有超过70亿参数的大规模视该模型在标准基准测试[4,10,11]上达到了与70亿规模

觉-语言模型（VLMs）在这个任务上表现出色[4,10,11]，基线相当的准确性，表明通过有针对性的训练策略和

但它们的训练需求非常昂贵，使得许多没有高端硬件数据选择可以显著提高模型性能，而不仅仅是依靠规

的研究人员和从业者无法使用这些模型。这引发了开

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

ZonUI-3B：单个消费级 GPU 训练的 30 亿参数 GUI 对齐视觉语言模型-计算机科学-视觉语言模型-图形用户界面定位.pdf