DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价

9/29/2025, 10:07:00 AM

📌 一句话摘要

DeepSeek 发布 V3.2-Exp 模型,引入稀疏注意力机制提升长文本处理效率,同步大幅降低 API 价格,并开源模型、论文及底层算子。

📝 详细摘要

深度求索正式发布实验性模型 DeepSeek-V3.2-Exp,其核心创新是引入了 DeepSeek Sparse Attention(DSA)稀疏注意力机制。该机制在不显著影响模型输出效果的前提下,大幅提升了长文本场景下的训练和推理效率。文章指出,V3.2-Exp 在公开评测集上的表现与前一代 V3.1-Terminus 基本持平。为推动技术普惠和社区发展,DeepSeek 同步大幅下调 API 价格超过 50%,同时开源了 V3.2-Exp 模型、相关研究论文以及创新的 TileLang 与 CUDA GPU 算子。官方鼓励广大用户对新模型进行对比测试并提供反馈,以进一步验证其在真实应用场景中的表现。

💡 主要观点

  1. 引入 DeepSeek Sparse Attention(DSA)显著提升长文本处理效率 DSA 作为一种细粒度稀疏注意力机制,在几乎不影响模型输出质量的前提下,大幅优化了长文本场景下的模型训练和推理成本,提高了资源利用率。
  2. API 价格同步大幅下调超 50%,降低开发者使用成本 得益于新模型带来的服务成本降低,DeepSeek 将 API 价格进行显著调整,使开发者能以更低廉的成本调用高性能大模型,促进 AI 应用开发。
  3. 模型、论文及 GPU 算子全面开源,助力社区技术发展 DeepSeek 不仅开源了 V3.2-Exp 模型和研究论文,还开放了用于 GPU 算子开发的 TileLang 与 CUDA 版本,为研究者和开发者提供了深入探索和快速迭代的基础工具。

💬 文章金句

📊 文章信息

AI 评分:93
精选文章:
来源:DeepSeek
作者:DeepSeek
分类:人工智能
语言:中文
阅读时间:4 分钟
字数:955
标签: 大语言模型, 稀疏注意力, 模型优化, 长文本处理, API降价
阅读完整文章

阅读原文 QR Code 返回目录