Tongyi DeepResearch 的技术报告探秘

9/29/2025, 7:30:00 AM

📌 一句话摘要

文章深入解读了阿里通义实验室开源的高性能 Web Agent 项目 Tongyi DeepResearch,剖析其模型架构、训练策略及在 Agent 领域的创新与实践。

📝 详细摘要

本文作为一份技术报告探秘,详细拆解了阿里通义实验室开源的 Tongyi DeepResearch Web Agent 项目。文章首先介绍了 DeepResearch 作为开源、高性能 Web Agent 的定位,并分析了其包含的模型、推理代码、评测代码等核心组成部分。接着,重点阐述了 DeepResearch 模型的三阶段训练流程:增量训练(CPT)、监督微调(SFT)和强化学习(RL),并深入探讨了 WebFrontier 等数据合成策略,以及 IterResearch 模式在长周期 Agent 任务中的关键作用。文章最后深入探讨了 DeepResearch 的设计对 Agent 领域研究的参考价值,并从“共识”与“欠共识”的角度,为不同背景的技术从业者提供了更具指导意义的技术洞察和实践方向。

💡 主要观点

  1. Tongyi DeepResearch 是开源高性能 Web Agent,具备 SOTA 性能 该项目开源了 30B MoE 模型,在 HLE、BrowseComp 等基准测试中超越闭源模型,其小尺寸和高效推理使其在 PC/Mac 部署成为可能,为开发者和研究者提供可复现、可落地的智能体新范式。
  2. 模型采用三阶段训练流程,结合全流程合成数据和强化学习 DeepResearch 通过增量训练(CPT)、监督微调(SFT)和强化学习(RL)阶段,并引入 WebFrontier 等数据合成方法,有效提升了模型对 Agent 任务的适应性和性能。
  3. IterResearch 模式通过维护核心报告和动态工作空间,优化长周期 Agent 任务 相比 ReAct 模式,IterResearch 有效解决了上下文窗口被快速占用和污染的问题,提高了模型在多步工具调用中的推理和决策能力,是长周期 Agent 设计的关键创新。
  4. 文章深入探讨了 Agent 领域的技术共识与欠共识,为未来研究和应用提供了清晰的路线图 通过对 DeepResearch 设计理念的分析,文章辨析了 Agent 专用模型、数据准备、CPT/SFT/RL 阶段选择等方面的行业现状和争议,帮助读者判断技术投入方向和采纳策略。

💬 文章金句

📊 文章信息

AI 评分:93
精选文章:
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:41 分钟
字数:10234
标签: Web Agent, Tongyi DeepResearch, 大语言模型, 模型训练, 强化学习
阅读完整文章

阅读原文 QR Code 返回目录