面向智能导购的 Agent 评测实践

5/15/2026, 8:56:00 AM

📌 一句话摘要

本文提出一套面向家居导购 Agent 的自动化评估链路,基于结构化多维度 Benchmark 和 LLM-as-a-judge 实现 91.9% 准确率的自动评分,并量化对比发现 gpt51 最优,较线上模型 qwen3-vl 提升 16.4%。

📝 详细摘要

本文来自大淘宝技术团队,分享了一套面向家居导购 Agent 的端到端自动化评估实践。文章首先指出传统人工评测成本高、主观性强、难以复现的问题,并提出了一个由 Benchmark 创建、LLM 模拟人工评测、人工抽样验收和自动化评测报告四个模块构成的闭环方案。核心创新在于构建了包含基础指令、专业指令、补充指令和用户画像四大一级维度、22 个二级维度的结构化评测体系,并采用 LLM-as-a-judge 进行自动评分,经人工校验准确率达 91.9%。通过该链路,团队对四种基座模型(gpt51、gemini25、外部模型 XX、qwen3-vl)进行了横向对比,发现 gpt51 综合表现最佳,总分 0.680,较当前线上模型 qwen3-vl 提升 16.4%。文章还深入分析了当前 Agent 的三大核心瓶颈:无法识别已有家具导致重复推荐、未抓住用户核心需求导致跑题、推荐过量无关商品。该评测体系为高频迭代下的 Agent 能力量化追踪提供了可复用的工程化方案。

💡 主要观点

  1. 构建了结构化多维度评测体系,覆盖四大一级维度和 22 个二级维度。 评测体系围绕基础指令(商品选择)、专业指令(空间设计)、补充指令(偏好与附加条件)和用户画像四类核心能力展开,二级维度用于检查细节完成度,使自动打分具备统一标准和可解释性。
  2. LLM-as-a-judge 自动评分准确率达 91.9%,可替代大部分人工评测。 通过多种大模型作为评审员进行交叉评分,并与人工标注的 GT 对比,验证了自动评测的可靠性,为高频迭代下的性能追踪提供了高效手段。
  3. 量化对比发现 gpt51 最优,较线上模型 qwen3-vl 提升 16.4%。 在四种基座模型的横向对比中,gpt51 总分 0.680 位列第一,优势主要体现在基础指令与专业指令两项核心能力上,而 qwen3-vl 在四个维度得分均为最低。
  4. 识别出三大核心瓶颈:无法识别已有家具、未抓住核心需求、推荐过量。 问题分析揭示了当前大模型在多模态理解、需求抽取与约束控制方面的关键短板,为后续优化提供了明确方向。

💬 文章金句

📊 文章信息

AI 初评:92
精选文章:
来源:大淘宝技术
作者:大淘宝技术
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5774
标签: Agent 评测, LLM-as-a-Judge, 智能导购, 多模态, Benchmark
阅读完整文章

阅读原文 QR Code 返回目录