美团 Agent 岗二面:向量检索和关键词检索有什么区别?

5/19/2026, 6:12:00 AM

📌 一句话摘要

本文以面试问答形式,深入对比了关键词检索(BM25)与向量检索的原理、优劣和互补关系,并介绍了混合检索(Hybrid Search)与 RRF 融合排序的工程实践。

📝 详细摘要

文章从一个常见的面试场景切入,纠正了「向量检索比关键词检索好」的普遍误解。作者首先阐述了检索的核心问题,即如何定义「相关」——是字面词汇重叠还是语义意思接近。接着,文章详细解析了关键词检索(以 BM25 为代表)的原理,包括倒排索引、词频(TF)和稀缺度(IDF)等核心概念,并指出其优势在于精确词汇命中率极高,但致命弱点是无法处理同义词。随后,文章介绍了向量检索通过 Embedding 模型将文本转化为语义空间向量,利用余弦相似度进行匹配,擅长处理同义词和模糊表达,但对专有名词、产品型号等精确词不敏感。文章通过对比表格清晰展示了两者的核心区别。最后,文章提出了工程上的最佳实践——混合检索,即同时运行向量检索和 BM25,并使用 RRF(互倒排名融合)算法将两路结果合并排序,以取长补短,并提供了 Python 代码示例。文章强调,在 RAG 系统中,混合检索已成为行业默认做法。

💡 主要观点

  1. 关键词检索(BM25)和向量检索各有优劣,并非替代关系。 BM25 基于词频统计,擅长精确匹配专有名词和代码,但无法处理同义词;向量检索基于语义空间距离,擅长处理同义词和模糊表达,但对精确词容易漏检。两者盲区互补。
  2. 混合检索(Hybrid Search)是 RAG 系统的行业默认做法。 工程实践中,同时运行向量检索和 BM25 两路检索,利用 RRF(互倒排名融合)算法合并排序,可以兼顾语义理解和精确匹配,显著提升召回质量。
  3. RRF 算法通过排名而非原始分数进行融合,解决了不同检索系统分数量纲不一致的问题。 RRF 使用排名的倒数作为分数,将两路结果中排名靠前的文档赋予更高权重,使得两路都认为相关的文档排在前面,避免了直接加权平均的弊端。

💬 文章金句

📊 文章信息

AI 初评:83
来源:小林coding
作者:小林coding
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3903
标签: 向量检索, 关键词检索, BM25, 混合检索, RRF
阅读完整文章

阅读原文 QR Code 返回目录