美团视频生成模型来了!一出手就是开源 SOTA

10/27/2025, 7:23:30 AM

📌 一句话摘要

美团开源了 SOTA 视频生成模型 LongCat-Video,支持文生/图生/长视频生成,具备物理世界理解能力,并采用 MIT 协议。

📝 详细摘要

文章详细介绍了美团最新开源的视频生成模型 LongCat-Video,该模型参数为 13.6B,支持文生视频、图生视频及核心的视频延长功能,能稳定生成长达数分钟的视频且无质量下降。LongCat-Video 在开源模型中表现顶尖,部分核心能力可与谷歌闭源模型 Veo3 媲美,尤其在物理世界理解和常识性维度上具有领先优势。技术上,模型基于 Diffusion Transformer 框架,通过将所有任务统一为条件帧续生、原生预训练长视频任务、以及采用块稀疏注意力等方法,实现了高效率和高质量。该模型采用 MIT 协议,允许商用,为广大开发者和企业提供了免费使用和集成的便利,极大地加速了视频 AI 技术的普及和商业化应用。美团表示,推出 LongCat-Video 旨在探索世界模型这一前沿领域,明确将视频生成模型视为构建世界模型的关键路径,通过视频生成任务压缩几何、语义、物理等多种形式的知识,使 AI 得以在数字空间中模拟、推演乃至预演真实世界运行,具备更深层次的智能。

💡 主要观点

  1. LongCat-Video 在开源视频生成领域达到 SOTA 水平,尤其在物理理解和长视频能力上表现突出。 模型在文生视频能力上超越多个开源模型,部分维度可媲美闭源 Veo3,并在 VBench 2.0 常识性维度中领先,能稳定生成数分钟高质量长视频。
  2. 技术创新体现在统一任务定义、原生预训练长视频和高效推理优化。 通过将所有任务定义为条件帧续生,直接在视频续生任务上预训练,并结合块稀疏注意力等技术,解决了长视频生成中的累积误差和效率问题。
  3. 模型采用 MIT 协议开源,极大促进了视频 AI 技术的普及和商业应用。 开放商用许可使得开发者和企业可以免费使用和集成 LongCat-Video,加速了视频生成技术在内容创作、营销等领域的落地。

💬 文章金句

📊 文章信息

AI 评分:92
精选文章:
来源:量子位
作者:鹭羽
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3766
标签: 视频生成, AI模型, 美团, 开源, 长视频
阅读完整文章

阅读原文 QR Code 返回目录