📌 一句话摘要
美团开源了 SOTA 视频生成模型 LongCat-Video,支持文生/图生/长视频生成,具备物理世界理解能力,并采用 MIT 协议。
📝 详细摘要
文章详细介绍了美团最新开源的视频生成模型 LongCat-Video,该模型参数为 13.6B,支持文生视频、图生视频及核心的视频延长功能,能稳定生成长达数分钟的视频且无质量下降。LongCat-Video 在开源模型中表现顶尖,部分核心能力可与谷歌闭源模型 Veo3 媲美,尤其在物理世界理解和常识性维度上具有领先优势。技术上,模型基于 Diffusion Transformer 框架,通过将所有任务统一为条件帧续生、原生预训练长视频任务、以及采用块稀疏注意力等方法,实现了高效率和高质量。该模型采用 MIT 协议,允许商用,为广大开发者和企业提供了免费使用和集成的便利,极大地加速了视频 AI 技术的普及和商业化应用。美团表示,推出 LongCat-Video 旨在探索世界模型这一前沿领域,明确将视频生成模型视为构建世界模型的关键路径,通过视频生成任务压缩几何、语义、物理等多种形式的知识,使 AI 得以在数字空间中模拟、推演乃至预演真实世界运行,具备更深层次的智能。
💡 主要观点
-
LongCat-Video 在开源视频生成领域达到 SOTA 水平,尤其在物理理解和长视频能力上表现突出。
模型在文生视频能力上超越多个开源模型,部分维度可媲美闭源 Veo3,并在 VBench 2.0 常识性维度中领先,能稳定生成数分钟高质量长视频。
-
技术创新体现在统一任务定义、原生预训练长视频和高效推理优化。
通过将所有任务定义为条件帧续生,直接在视频续生任务上预训练,并结合块稀疏注意力等技术,解决了长视频生成中的累积误差和效率问题。
-
模型采用 MIT 协议开源,极大促进了视频 AI 技术的普及和商业应用。
开放商用许可使得开发者和企业可以免费使用和集成 LongCat-Video,加速了视频生成技术在内容创作、营销等领域的落地。
💬 文章金句
- 我们离视频 AI 的终极形态又更进一步。
- 而且由于采用的是允许商用的 MIT 协议,连 Hugging Face 高级主管也用三连问来表示惊叹。
- 作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予 AI"看见"世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径。
- LongCat-Video 摒弃了传统的"先训练基础视频生成能力,再针对长视频任务微调"的训练路径,而是直接在视频续生任务上预训练。
- LongCat-Video 在常识性维度(运动合理性、物理定律遵循)上处于第一的领先优势,凸显出该模型优秀的物理世界建模能力。
📊 文章信息
AI 评分:92
精选文章:是
来源:量子位
作者:鹭羽
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3766
标签:
视频生成, AI模型, 美团, 开源, 长视频