美团视频生成模型来了！一出手就是开源 SOTA

📌 一句话摘要

美团开源了 SOTA 视频生成模型 LongCat-Video，支持文生/图生/长视频生成，具备物理世界理解能力，并采用 MIT 协议。

📝 详细摘要

文章详细介绍了美团最新开源的视频生成模型 LongCat-Video，该模型参数为 13.6B，支持文生视频、图生视频及核心的视频延长功能，能稳定生成长达数分钟的视频且无质量下降。LongCat-Video 在开源模型中表现顶尖，部分核心能力可与谷歌闭源模型 Veo3 媲美，尤其在物理世界理解和常识性维度上具有领先优势。技术上，模型基于 Diffusion Transformer 框架，通过将所有任务统一为条件帧续生、原生预训练长视频任务、以及采用块稀疏注意力等方法，实现了高效率和高质量。该模型采用 MIT 协议，允许商用，为广大开发者和企业提供了免费使用和集成的便利，极大地加速了视频 AI 技术的普及和商业化应用。美团表示，推出 LongCat-Video 旨在探索世界模型这一前沿领域，明确将视频生成模型视为构建世界模型的关键路径，通过视频生成任务压缩几何、语义、物理等多种形式的知识，使 AI 得以在数字空间中模拟、推演乃至预演真实世界运行，具备更深层次的智能。

💡 主要观点

LongCat-Video 在开源视频生成领域达到 SOTA 水平，尤其在物理理解和长视频能力上表现突出。 模型在文生视频能力上超越多个开源模型，部分维度可媲美闭源 Veo3，并在 VBench 2.0 常识性维度中领先，能稳定生成数分钟高质量长视频。
技术创新体现在统一任务定义、原生预训练长视频和高效推理优化。 通过将所有任务定义为条件帧续生，直接在视频续生任务上预训练，并结合块稀疏注意力等技术，解决了长视频生成中的累积误差和效率问题。
模型采用 MIT 协议开源，极大促进了视频 AI 技术的普及和商业应用。 开放商用许可使得开发者和企业可以免费使用和集成 LongCat-Video，加速了视频生成技术在内容创作、营销等领域的落地。

💬 文章金句

我们离视频 AI 的终极形态又更进一步。
而且由于采用的是允许商用的 MIT 协议，连 Hugging Face 高级主管也用三连问来表示惊叹。
作为能够建模物理规律、时空演化与场景逻辑的智能系统，世界模型赋予 AI"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径。
LongCat-Video 摒弃了传统的"先训练基础视频生成能力，再针对长视频任务微调"的训练路径，而是直接在视频续生任务上预训练。
LongCat-Video 在常识性维度（运动合理性、物理定律遵循）上处于第一的领先优势，凸显出该模型优秀的物理世界建模能力。

📊 文章信息

AI 评分：92

精选文章：是

来源：量子位

作者：鹭羽

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3766

标签：视频生成, AI模型, 美团, 开源, 长视频

阅读完整文章