Gemma 3n 发布突破性技术,显著提升移动端 AI 推理效率

7/4/2025, 12:00:00 AM

📌 一句话摘要

Gemma 3n 引入逐层参数嵌入技术(PLE)和 MatFormer 架构,实现高效移动 AI 推理,具备原生多模态支持,速度较前代提升 13 倍。

📝 详细摘要

谷歌正式发布 Gemma 3n,专注于移动优先的设备端 AI 应用,通过创新技术提升效率和性能。它采用逐层参数嵌入技术(PLE),通过仅将核心 Transformer 权重加载到显存(VRAM)来减少内存使用,内存占用降低 75%。MatFormer 架构通过嵌套 Transformer(Nested Transformers)实现弹性推理(动态可调节推理),支持在全模型和功能完整子模型间动态切换。键值缓存共享(KV Cache Sharing)将首 token 延迟缩短 2 倍,特别有利于实时流应用。原生多模态能力包括每秒 6 个 token 的音频处理能力,在谷歌 Pixel 设备上支持最高 768×768@60fps 的视频处理。相比 Gemma 3,量化后速度提升 13 倍(非量化提升 6.5 倍),内存占用减少 75%,未来计划支持动态模型切换。

💡 主要观点

  1. 相比 Gemma 3,速度提升 13 倍且内存占用减少 75%。 量化版本在谷歌 Pixel 设备上实现 13 倍加速,同时大幅降低资源需求。
  2. 逐层参数嵌入技术减少内存使用同时保持参数数量。 逐层参数嵌入技术仅将 40-50% 参数加载到显存(2B/5B),其余保留在 CPU 以实现内存效率。
  3. MatFormer 架构通过嵌套 Transformer 实现弹性推理。 包含功能完整子模型(如 4B 模型中的 2B)并支持混合中间配置。
  4. 键值缓存共享将首 token 延迟缩短 2 倍。 在层间共享注意力键/值(Key-Value),对长上下文流式传输特别有效。
  5. 原生多模态处理能力达 768×768@60fps。 支持 768×768@60fps 的高清视频和每秒 6 个 token(160ms 窗口)的音频处理,适用于实时应用。

💬 文章金句

📊 文章信息

AI 评分:91
来源:InfoQ
作者:Sergio De Simone
分类:软件编程
语言:英文
阅读时间:2 分钟
字数:479
标签: 移动 AI, 设备端 AI, Transformer 模型, 谷歌, Gemma 3n

阅读原文 QR Code 返回目录