📌 一句话摘要
Google Cloud 宣布发布 Gemma 4,这是一个多模态开放模型系列,具有 256K 上下文窗口,并可在 Vertex AI、GKE 和 Cloud Run 上进行广泛部署。
📝 详细摘要
Google 在 Google Cloud 上发布了 Gemma 4,称其为迄今为止能力最强的开放模型系列。Gemma 4 基于 Gemini 3 研究成果构建,采用 Apache 2.0 许可证发布,支持原生视觉和音频处理、140 多种语言以及 256K 上下文窗口。文章详细介绍了其全面的部署生态系统:用于托管服务和微调的 Vertex AI、用于无服务器 GPU 推理(包括支持 NVIDIA Blackwell)的 Cloud Run,以及通过 vLLM 实现高吞吐量服务的 GKE。值得注意的是,它引入了用于安全工具执行的 GKE Agent Sandbox,并通过在 Sovereign Cloud 和气隙(air-gapped)环境中提供支持,强调了数字主权。
💡 主要观点
-
Gemma 4 是一个具备顶尖能力的多模态开放模型系列。
源自 Gemini 3,具有 256K 上下文窗口,支持原生视觉/音频,并在宽松的 Apache 2.0 许可证下,擅长处理复杂的逻辑和智能体任务。
-
多样的部署路径可满足不同的企业需求。
选项涵盖从使用 Blackwell GPU 的 Cloud Run 无服务器推理,到 GKE 上的细粒度基础设施控制,以及 Vertex AI Model Garden 中的全托管端点。
-
针对 LLM 服务和智能体的高级基础设施优化。
诸如带有预测性延迟提升(Predictive Latency Boost)的 GKE Inference Gateway 等功能可将首字延迟(TTFT)降低 70%,而 Agent Sandbox 则允许安全、隔离地执行 AI 生成的代码。
-
重点关注数字主权和数据合规性。
Gemma 4 可在 Sovereign Cloud 和 Google Distributed Cloud 中使用,支持在高度敏感、气隙(air-gapped)或受监管的环境中进行部署。
💬 文章金句
- 从每一个字节来看,它都是能力最强的开放模型系列。
- Gemma 4 为您提供了这种平衡:企业级 AI 需要能够执行复杂逻辑,同时将数据保持在安全边界内的模型。
- 带有预测性延迟提升功能的 GKE Inference Gateway 可以通过用实时容量感知路由取代启发式猜测,将首字延迟(TTFT)降低高达 70%。
- 此次扩展强化了我们对开放、主权数字世界的承诺,即组织能够完全掌控其数据、加密和运营环境。
📊 文章信息
AI 评分:87
来源:Google Cloud Blog
作者:Richard Seroter
分类:人工智能
语言:英文
阅读时间:4 分钟
字数:989
标签:
Gemma 4, Google Cloud, 开放模型, 多模态 AI, Vertex AI