具身智能中的视觉-语言-动作模型:研究进展与前沿探索.pdfVIP

  • 1
  • 0
  • 约2.13万字
  • 约 7页
  • 2026-05-11 发布于福建
  • 举报

具身智能中的视觉-语言-动作模型:研究进展与前沿探索.pdf

专题计算第2025年8月

第1卷第4期

具身智能中的视觉-语言-动作

模型:研究进展与前沿探索

张谊科王耀南谢核

湖南大学

背景与现状进步。作为具身智能的核心技术,视觉-语言-动作

(vision-language-action,VLA)模型通过整合视觉、语言

随着人工智能(artificialintelligence,AI)技术的迅和动作的多模态处理能力,与具身控制系统深度融合,

猛发展,其应用边界正从虚拟数字空间向物理世界快成为通向通用具身智能的关键路径。

速拓展。在大数据与物联网的推动下,截至2025年,VLA模型的演进历程反映了多模态融合与智能控

全球智能设备预计将达到750亿台,结合5G技术的普制技术的迭代升级。早期系统多采用模块化设计,将

及,智能终端每天生成海量的异构数据。例如,机器人视觉感知、语言理解和动作规划独立运行

文档评论(0)

1亿VIP精品文档

相关文档