VLA 已死,WAM 当立:机器人的 GPT 时刻到了吗?

5/19/2026, 11:23:00 AM

📌 一句话摘要

本文围绕英伟达 Jim Fan 提出的「VLA 已死,WAM 当立」论断,深入分析了世界动作模型(WAM)相比视觉语言模型(VLA)在泛化能力、数据来源和长程任务上的突破,同时冷静审视了 VLA 在精细控制、部署效率和工程成熟度上的不可替代性,并探讨了技术路线切换对具身智能创业公司的冲击。

📝 详细摘要

文章以英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 2026 大会上的争议性发言为引子,系统梳理了具身智能领域从 VLA 到 WAM 的技术路线之争。文章首先指出 VLA 的核心问题在于其依赖遥操作数据训练的「条件反射」式学习,导致泛化能力脆弱。随后阐述了 WAM 的三大突破:通过物理想象力实现泛化能力跃升(零样本场景表现提升 33%)、利用海量互联网人类视频打破数据瓶颈、以及显著提升长程任务能力(如 Motubrain 可完成十个原子动作)。文章列举了银河通用 LDA-1B、生数科技 Motubrain、智在无界 Being-H0.7 等国内团队的进展,以及英伟达 DreamZero 等海外成果。然而,文章并未全盘接受「VLA 已死」的论断,而是冷静分析了其背后的商业叙事(英伟达推动高算力消耗路线),并指出 WAM 在精密装配、推理延迟、数据与算力门槛上的不足。文章强调,VLA 在毫米级精度、实时部署、工程成熟度和工业体系兼容性上仍有不可替代的价值,未来更可能的路径是两者深度融合。最后,文章将视角转向创业公司,分析了技术路线快速切换带来的沉没成本风险、人才市场震荡、产品价值存疑和资本市场耐心下降等严峻挑战。

💡 主要观点

  1. WAM 通过物理想象力实现了泛化能力的跃升,并打破了 VLA 对昂贵遥操作数据的依赖。 WAM 让机器人在执行动作前预演物理结果,使其能适应陌生环境;同时,它可利用海量互联网人类视频进行训练,大幅降低数据获取成本,这是其相比 VLA 的核心优势。
  2. 「VLA 已死」的论断背后存在英伟达的商业叙事,旨在推动更高算力消耗的技术路线。 WAM 对 GPU 算力的需求远超 VLA,作为芯片供应商,英伟达有动力推广更「吃」算力的技术,这提醒读者需区分客观技术突破与被商业立场放大的预期。
  3. VLA 在精细控制、部署效率和工程成熟度上仍有 WAM 难以替代的价值。 在需要毫米级精度和实时响应的精密装配、手术辅助等场景,VLA 的轻量化架构和低延迟优势明显;且其生态工具成熟,创业团队可快速搭建可用系统。
  4. 技术路线的快速切换给押注 VLA 的创业公司带来了沉没成本、人才震荡和融资压力。 大量初创公司围绕 VLA 投入巨资构建数据采集和团队,WAM 的兴起导致这些资产面临重新估值,人才需求转向,投资人也因技术未收敛而更加审慎。

💬 文章金句

📊 文章信息

AI 初评:86
来源:脑极体
作者:脑极体
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4356
标签: VLA, WAM, 具身智能, 机器人, 世界模型
阅读完整文章

阅读原文 QR Code 返回目录