📌 一句话摘要
本文围绕英伟达 Jim Fan 提出的「VLA 已死,WAM 当立」论断,深入分析了世界动作模型(WAM)相比视觉语言模型(VLA)在泛化能力、数据来源和长程任务上的突破,同时冷静审视了 VLA 在精细控制、部署效率和工程成熟度上的不可替代性,并探讨了技术路线切换对具身智能创业公司的冲击。
📝 详细摘要
文章以英伟达机器人负责人 Jim Fan 在红杉 AI Ascent 2026 大会上的争议性发言为引子,系统梳理了具身智能领域从 VLA 到 WAM 的技术路线之争。文章首先指出 VLA 的核心问题在于其依赖遥操作数据训练的「条件反射」式学习,导致泛化能力脆弱。随后阐述了 WAM 的三大突破:通过物理想象力实现泛化能力跃升(零样本场景表现提升 33%)、利用海量互联网人类视频打破数据瓶颈、以及显著提升长程任务能力(如 Motubrain 可完成十个原子动作)。文章列举了银河通用 LDA-1B、生数科技 Motubrain、智在无界 Being-H0.7 等国内团队的进展,以及英伟达 DreamZero 等海外成果。然而,文章并未全盘接受「VLA 已死」的论断,而是冷静分析了其背后的商业叙事(英伟达推动高算力消耗路线),并指出 WAM 在精密装配、推理延迟、数据与算力门槛上的不足。文章强调,VLA 在毫米级精度、实时部署、工程成熟度和工业体系兼容性上仍有不可替代的价值,未来更可能的路径是两者深度融合。最后,文章将视角转向创业公司,分析了技术路线快速切换带来的沉没成本风险、人才市场震荡、产品价值存疑和资本市场耐心下降等严峻挑战。
💡 主要观点
-
WAM 通过物理想象力实现了泛化能力的跃升,并打破了 VLA 对昂贵遥操作数据的依赖。
WAM 让机器人在执行动作前预演物理结果,使其能适应陌生环境;同时,它可利用海量互联网人类视频进行训练,大幅降低数据获取成本,这是其相比 VLA 的核心优势。
-
「VLA 已死」的论断背后存在英伟达的商业叙事,旨在推动更高算力消耗的技术路线。
WAM 对 GPU 算力的需求远超 VLA,作为芯片供应商,英伟达有动力推广更「吃」算力的技术,这提醒读者需区分客观技术突破与被商业立场放大的预期。
-
VLA 在精细控制、部署效率和工程成熟度上仍有 WAM 难以替代的价值。
在需要毫米级精度和实时响应的精密装配、手术辅助等场景,VLA 的轻量化架构和低延迟优势明显;且其生态工具成熟,创业团队可快速搭建可用系统。
-
技术路线的快速切换给押注 VLA 的创业公司带来了沉没成本、人才震荡和融资压力。
大量初创公司围绕 VLA 投入巨资构建数据采集和团队,WAM 的兴起导致这些资产面临重新估值,人才需求转向,投资人也因技术未收敛而更加审慎。
💬 文章金句
- VLA 学习到的是一种极其脆弱的、标准化的「条件反射」,很难推广到复杂的现实场景。
- WAM 试图让机器人在执行动作之前,先在内部模型里预演一下:这个动作之后,物体会怎么移动,液体会怎么流动,整个场景会发生什么变化。
- WAM 让机器人第一次拥有了从互联网视频中自学物理世界的可能性。
- 「VLA 已死」是一个极具传播力的口号,但把它当成技术判决书来读可能为时过早。它更像是一声警钟。
- 在这个行业,选对方向比埋头苦干重要得多。而选对方向的窗口期,正在变得越来越短。
📊 文章信息
AI 初评:86
来源:脑极体
作者:脑极体
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4356
标签:
VLA, WAM, 具身智能, 机器人, 世界模型