veRL 推出开源 Uni-Agent:为通用 Agent 训练打造统一框架

5/19/2026, 5:10:00 AM

📌 一句话摘要

字节跳动 veRL 团队推出开源 Uni-Agent 框架,旨在通过统一的构建、运行与训练流程,解决通用 Agent 从 Demo 走向真实应用时的系统性断层问题。

📝 详细摘要

本文由字节跳动 veRL 团队发布,介绍了其开源的 Uni-Agent 框架。文章指出,当前开源 Agent 框架在 Benchmark 和单任务验证中表现不错,但在支撑复杂通用场景、规模化运行及训练闭环方面存在系统性断层。Uni-Agent 的核心目标是构建一个贯通构建(Build)、运行(Run)与训练(Train)完整流程的系统。在构建层,它通过将 Agent 核心能力拆解为 model、tool、env 三个模块,实现灵活扩展。在运行层,基于火山引擎 veFaaS Sandbox 提供面向规模化的远程沙盒执行方案,支持万级并发下的安全隔离与性能优化。在训练层,Uni-Agent 可自然接入 veRL 训练引擎,并通过在 Coding Agent 任务上的实验验证了异步训练方案在 Agent 场景中的高效性。文章最后展示了其在 R2E-Gym 数据集上训练 Qwen3-Coder-30B 模型的实验结果,表明模型能力可在真实交互中持续增长。

💡 主要观点

  1. 当前开源 Agent 框架存在从 Demo 到真实应用的系统性断层。 现有方案在预设任务中表现优秀,但在开放性、扩展性和持续演化能力上不足,难以支撑真实业务中的复杂场景和规模化运行。
  2. Uni-Agent 通过统一的构建、运行与训练流程解决上述问题。 框架将 Agent 能力拆解为 model、tool、env 三个模块,支持灵活扩展;运行层基于 veFaaS Sandbox 实现安全隔离与高并发;训练层自然接入 veRL 引擎,形成训练闭环。
  3. 异步训练方案在 Agent 场景中展现出显著效率优势。 Agent 任务存在长尾效应,不同样本在交互轮数和执行时长上差异大。实验表明,相比同步训练,异步训练效率成倍提升,且效果基本稳定。

💬 文章金句

📊 文章信息

AI 初评:88
来源:字节跳动技术团队
作者:字节跳动技术团队
分类:人工智能
语言:中文
阅读时间:10 分钟
字数:2405
标签: Uni-Agent, veRL, Agent 框架, 强化学习, 字节跳动
阅读完整文章

阅读原文 QR Code 返回目录