- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ZonUI-3B:单个消费级GPU训练的30亿参数GUI对齐视觉语言模型
ZongHanHsiehShengJingYangTzer-JenWei
DeepCATLab,NationalYangMingChiaoTungUniversity
{zonghan.ai12,billy004104.ai12,tjwei}@.tw
Abstract
在本文中,我们介绍了ZonUI-3B,这是一个轻量
本级的视觉语言模型(VLM),可以在单个消费级GPU
(RTX4090)上完全训练,并且在GUI定位任务上的性
译能可与更大的模型相媲美。该模型结合了几项关键创
中新:(i)结合来自不同来源的跨平台、多分辨率数据集,
3包括移动设备、桌面和网页界面截图中的2.4万个示例,
v有效解决了高分辨率桌面环境中的数据稀缺问题;(ii)
1图1.总体上不同模型规模的ScreenSpot基准准确性。
9采用两阶段微调策略,在初始跨平台训练建立稳健的
4
3GUI理解后,再对高分辨率数据进行专门微调以显著提
2高模型适应性;以及(iii)数据整理和冗余减少策略,表发保持高定位精度的紧凑型模型的兴趣增长[8,9]。
.
6明随机抽取一个较小且减少冗余的子集可以达到与更早期在这方面的工作,如ShowUI[8],表明轻量级
0
5大数据集相当的性能,强调了数据多样性而非单纯的数模型仅使用20亿个参数即可在零样本设置中取得具有
2据量。在标准GUI定位基准测试——包括ScreenSpot、竞争力的结果。然而,在包括高分辨率桌面和网页界面
:
vScreenSpot-v2和具有挑战性的ScreenSpot-Pro上的经在内的多样化GUI环境中实现一致的性能仍然是一个
i
x验评估突出了ZonUI-3B卓越的准确性,在ScreenSpot重大挑战。较小的模型通常在面对密集布局、不同的屏
r
a上达到了84.9%,在ScreenSpot-v2上达到了86.4%,超幕分辨率以及与训练分布偏差较大的UI模式时,难以
越了参数少于40亿的先前模型。消融研究验证了平衡进行泛化。这些限制因三个因素而加剧:(1)现有数据
采样和两阶段微调在增强稳健性,特别是在高分辨率集中分辨率多样性有限,这限制了对大规模界面[4]的
桌面场景中的关键作用。ZonUI-3B模型及相关资源可鲁棒性;(2)GUI结构和元素样式的高度变异性,引入
在/Han1018/ZonUI-3B获取。了对布局变化和视觉扭曲[3]的敏感性;(3)跨平台的
数据不平衡问题,特别是在高分辨率桌面示例相对于
移动数据[2]的代表性不足。
1.介绍
为了解决这些问题,我们提出了ZonUI-3B,一个
图形用户界面(GUI)定位——根据自然语言指令轻量级的30亿参数视觉语言模型,优化用于跨平台和
在屏幕上找到正确的UI元素的任务,是构建智能GUI分辨率多样的环境中的GUI定位。尽管其体积小巧,
代理的基础能力。虽然拥有超过70亿参数的大规模视该模型在标准基准测试[4,10,11]上达到了与70亿规模
觉-语言模型(VLMs)在这个任务上表现出色[4,10,11],基线相当的准确性,表明通过有针对性的训练策略和
但它们的训练需求非常昂贵,使得许多没有高端硬件数据选择可以显著提高模型性能,而不仅仅是依靠规
的研究人员和从业者无法使用这些模型。这引发了开
您可能关注的文档
- 考虑人口统计学的儿童腕部骨折细粒度分类-计算机科学-机器学习-儿童骨折分类-医学 X 射线成像.pdf
- 从混合策略的角度改进 DAPO-计算机科学-强化学习-动态采样策略优化.pdf
- 具有移动性和时延扩散的信道中的差分通信使用 Zak-OTFS-计算机科学-信道可预测性-时延多普勒调制-差分通信.pdf
- 加速射频功率放大器设计通过智能采样和基于机器学习的参数调整-计算机科学-机器学习-射频功率放大器设计优化.pdf
- WildFX:一个用于野外音频效果图建模的 DAW 驱动管道-计算机科学-AI音乐生成-数字信号处理.pdf
- 实例空间分析的带容量车辆路径问题-计算机科学-机器学习-算法.pdf
- 预编码 Zak-OTFS 用于每载波均衡-计算机科学-机器学习-预编码技术.pdf
- 无损量子计算通过减少量子比特开销以实现高效的算术运算-计算机科学-机器学习-量子算术-量子哈密顿计算.pdf
- DiffGradCAM: 一种抵抗对抗训练的通用类激活图方法-计算机科学-深度神经网络-可解释性-类激活映射.pdf
- SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf
- 集合与常用逻辑用语--高中数学一轮复习人教A版专题特训(含解析).doc
- 供应链视角下房地产开发企业成本管理的创新与实践:理论、策略与案例分析.docx
- 【单元考点培优】Module 2 考点02:单项选择题-2025-2026学年外研版(三起)六年级英.docx
- 小升初分班考计算专题突破:四则混合运算(含解析)-数学六年级下册北师大版.docx
- 专题四 第一讲 氯及其重要化合物(含解析)2026届高中化学大一轮复习讲义 (1).doc
- 第一章 物质及变化 章末检测试题 2025--2026学年上学期高中化学人教版(2019.docx
- 第6课 希腊罗马古典文化 教学设计九上历史.docx
- 供应链管理视角下汽车制造企业成本控制的策略与实践.docx
- 8年级物理上册知识点总结 沪粤版(2024).docx
- 第二章直线和圆的方程常考易错检测卷(含答案)-高中数学人教A版(2019)选择性必修第一册.docx
文档评论(0)