04.崔宸-移动端 GUI Agent 技术拆解(1).pdfVIP

04.崔宸-移动端 GUI Agent 技术拆解(1).pdf

构建可理解界面、可执行任务的智能体：

移动端GUIAgent技术拆解

演讲嘉宾：崔宸

01背景与痛点

目录02核心架构设计

CONTENT03关键技术难点攻克

04实际效果与未来展望

背景与痛点

什么是GUIagent

GUI(图形用户界面)AIAgent(AI智能体)

AIagent的范式

跨应用自动化的强烈需求

个人用户场景企业级场景无障碍需求

订票、比价、记账、数据迁移——这些看似简单财务报表的跨系统填报、客户信息的多平台同步对于老年人或视障人群，即使是简单的App操作

的任务，往往需要在多个App之间反复切换，消、合规审计的数据收集——企业面临更复杂的自也可能成为障碍。自动化Agent可以成为他们的

耗大量时间和精力。动化挑战。数字助手。

App孤岛与自动化的困境

现实的尴尬自动化的两难

在移动互联网时代，每个App都是一座封闭的围墙花园（WalledGardens传统RPA（机器人流程自动化）基于DOM节点或控件ID进行操作，这

）。不同于Web时代的开放API生态，App之间缺乏标准化的互联互通种方式极其脆弱。App一旦更新UI布局或改变元素标识，脚本立即失效

机制。。

用户想要比较三个电商平台的价格？需要手动打开三个App，逐个搜索而API集成虽然稳定，但成本高昂：需要获取权限、理解文档、维护版

、截图、对比。企业想要自动化填报系统？传统方式要么依赖昂贵的定本兼容性。对于普通用户和中小企业来说，这几乎是不可能完成的任务

制开发，要么使用脆弱的RPA脚本。。

各个终端的GUIagent

Web-端Agent(Manus)桌面端Agent(UI-Tar)移动端Agent（豆包手机助手）

核心架构设计

GUIAgent通用架构

感知层(Perception)决策层(Planning)执行层(Action)

AI的眼睛AI的大脑AI的手

•截图获取与预处理•意图理解与任务拆解•原子操作执行

•XML/DOM树解析•操作序列规划•多种接口适配

•多模态信息融合•异常检测与修正•执行结果验证

•语义化UI元素识别•上下文记忆管理•性能优化策略

感知层：AI如何看懂屏幕

多模态输入的必要性

单纯的截图包含了视觉信息，但缺少结构化的语义。一个红色的圆角矩形，人类能够凭