Amadeus的知识库 | 纯向量检索关键词识别弱?带上BM25算法搞混合检索 + Reranking做召回优化,RAG生成质量大幅增强!

张开发
2026/4/6 21:11:35 15 分钟阅读

分享文章

Amadeus的知识库 | 纯向量检索关键词识别弱?带上BM25算法搞混合检索 + Reranking做召回优化,RAG生成质量大幅增强!
一、引文在之前我们的检索环节只是使用了向量数据库提供的 ANN 算法进行纯向量检索原因在于它可以通过计算查询向量和文档向量之间的余弦相似度在极短时间内从整个向量数据库找到几个语义相似的局部最优解。它的强大之处在于擅长理解语义但是一旦面对一些关键词却不敏感比如某个手机的特定型号、某个专业名词的英文简写、亦或是一些订单编号纯向量检索对识别这些关键词的能力是远远不够的因此极有可能召回另一种型号的手机或者其他专业名词亦或是与订单相关的文档而非订单号。二、BM25算法的核心机理BM25 (Best Matching 25)是信息检索Information Retrieval领域中最主流的算法之一。它是TF-IDF算法的改进版目前是 Elasticsearch、Lucene 和 Solr 等主流搜索引擎默认的相关性评分算法。简单来说BM25 的作用是给定一个查询语句Query计算它与文档Document之间的相关性得分。1.核心评判标准BM25 在 TF-IDF 的基础上引入了两个重要的改进词频饱和度TF Saturation和文档长度归一化Document Length Normalization。它的评判标准主要由以下三个维度组成1逆文档频率 (IDF) —— 词的稀有程度逻辑如果一个词在所有文档中出现得越少如“量子纠缠”它对搜索意图的区分度就越高如果一个词随处可见如“的”、“是”它的权重就应该很低。计算BM25 的 IDF 计算公式与传统略有不同但核心一致词越稀有得分越高。2词频 (Term Frequency, TF) —— 词在文档中的频率逻辑词在当前文档中出现的次数越多文档越相关。BM25 的改进饱和度限制在 TF-IDF 中TF 是线性的即一个词出现 100 次的得分是出现 1 次的 100 倍。但 BM25 认为当词频达到一定程度后其重要性增长应该放缓。例子如果一篇文档出现了 10 次“苹果”再增加到 100 次相关性提升其实非常有限。BM25 通过参数 k1​ 来控制这个“饱和曲线”。3文档长度 (Document Length) —— 篇幅公平性逻辑长文章包含某个词的概率天然比短文章高。BM25 的改进如果一个词在短文中出现了 3 次在万字长文中也出现了 3 次显然短文的相关性更高。BM25 引入了平均文档长度avgdl。如果文档比平均长度短得分会得到提升反之则被惩罚。通过参数 b 来控制惩罚的力度。2.得分计算公式3.具体运作流程当你在搜索框输入“如何学习 RAG”时BM25 在系统内部是如何运作的1分词系统将你的查询语句拆解。Query: [如何, 学习, RAG]2计算 IDF针对全库系统去索引库中查看这三个词的分布情况“如何”出现频率极高IDF 极低权重小。“学习”出现频率中等IDF 中等。“RAG”相对专业词汇IDF 较高权重大。3针对每个文档计算得分 (TF 长度)对于库中的某篇文档 D1​词频计算计算 RAG 在 D1​ 中出现了几次。长度缩放看 D1​ 的长度。如果 D1​ 很短那么它的 TF 得分会被放大如果 D1​ 是个长篇大论TF 得分会被压缩。计算加权分将这三个词的IDF × 调整后的TF分分别算出。4求和与排序将所有词的得分相加得到该文档的总分。搜索引擎对所有候选文档重复此过程最后按得分从高到低排列展示给用户。4.BM25 相较于 TF-IDF的优化它更符合人类直觉它知道一个词出现 20 次和出现 30 次的区别远小于出现 0 次和出现 10 次的区别词频饱和。它更公平它不会因为文档长、单词多就盲目给高分长度归一化。可调性强通过调节 k1​ 和 b开发者可以根据业务场景是短文本搜索还是长文库检索优化搜索效果。三、混合检索的最佳实践1.BM25 关键词检索 VS 向量检索维度BM25 关键词检索向量检索核心思想统计词频和文档频率计算关键词重要性把文本转成向量计算语义相似度能否理解语义不能。“七天无理由退货”和”买了一周的东西还能退吗”匹配不上能。两句话语义相近向量距离也近能否精确匹配能。“订单号 2026012345”能精确命中不能。数字和编号容易被理解成语义丢失精确信息对同义词的处理不行。“手机”和“移动电话”匹配不上行。Embedding 模型能把同义词映射到相近的向量对专有名词的处理很强。“iPhone 16 Pro Max”能精确匹配一般。可能被拆成“iPhone16”“Pro”“Max”分别理解计算成本低。只需要统计词频不需要调用模型高。需要调用 Embedding 模型把 query 转成向量典型应用搜索引擎Google、Elasticsearch语义搜索、推荐系统、RAG2.混合检索流程通过上述表格对 BM25 关键词检索与向量检索进行对比我们发现了它们并非是非此即彼的关系而是相互补充的关系。因此在 RAG 的检索环节我们通常会同时使用 BM25 关键词检索和向量检索也就是混合检索。大致流程图如下3.分数融合的难题向量检索返回的是余弦相似度0~1 之间BM25 返回的是相关性分数0~正无穷两者的值域不一样不能直接相加。打个比方向量检索说“这个 chunk 和 query 的相似度是 0.85”BM25 说“这个 chunk 的相关性分数是 12.3”你怎么判断哪个更相关直接相加0.85 12.3 13.15显然不合理因为 BM25 的分数天然比余弦相似度大得多。你可能会想到做归一化——把两种分数都映射到 0~1 之间然后再相加或加权平均。但这也有问题如果某一路检索的分数分布很集中比如都在 0.8~0.9 之间归一化后会把微小的差异放大如果分数分布很分散比如 0.1~0.9 都有归一化后会把大的差异压缩。所以实际工程中最常用的融合策略不是基于分数而是基于排名——这就是 RRFReciprocal Rank Fusion倒数排名融合。1RRF 核心策略RRF 不依赖分数本身只看排名。核心思想一个结果在两路检索中排名都靠前那它大概率是最相关的。2计算方式对于某个 chunk d它的 RRF 分数计算公式是‘RRF(d) Σ 1 / (k rank_i(d))rank_i(d)是 chunk d 在第 i 路检索中的排名从 1 开始k是一个平滑常数通常取 60Σ表示对所有检索路求和四、Reranking召回优化混合检索已经能把相关的 chunk 召回来了为什么还需要重排序因为召回阶段向量检索 / BM25 / 混合检索追求的是快速召回尽可能多的相关结果但排序不一定精准。打个比方你在图书馆找书召回阶段是把可能相关的书都搬到桌子上重排序是仔细翻看每本书把最相关的几本排到最前面。最终给 LLM 的上下文窗口很小真正关键的是 Top-3 或 Top-5 的排序是否正确。如果 Top-1 是不相关的 chunkLLM 很可能被误导生成错误的答案。重排序就是解决这一步——用更强的模型对候选集重新打分把最相关的结果排到最前面。1.基本流程重排序的基本流程是1.初检阶段向量检索 / 混合检索快速召回候选集比如 Top-20 或 Top-502.重排序模型逐个评估这个 chunk 和用户问题到底有多相关给每个候选打分3.按重排序分数重新排序取 Top-K比如 Top-5作为最终结果用一张图来表示为了平衡速度和精度目前业界标准做法是“分级过滤”第一步粗筛 (召回)使用BM25或者Bi-Encoder(向量检索) 从 1 亿个文档中快速捞出前 100 个候选项。目标保证相关文档在里面哪怕混入了一些噪音。第二步精筛 (重排)将这 100 个候选项交给Cross-Encoder (Reranker)。Reranker 对这 100 个文档进行深度语义打分。目标把最相关的文档排在第一名。2.Bi-Encoder vs Cross-Encoder1Bi-Encoder双编码器这是目前向量检索Vector Search的核心原理。工作原理查询词Query和文档Document被分别送入两个独立的或参数共享的模型。模型将它们分别转化为两个定长的向量Embedding。计算两个向量之间的相似度如余弦相似度。优点极快文档向量可以提前计算并存入数据库如 Milvus, Pinecone。在线搜索时只需要计算查询词的向量然后进行向量匹配速度是毫秒级的。缺点精度瓶颈因为 Query 和 Doc 是分开编码的它们之间没有“深度交流”模型无法捕获两者之间细微的词汇级对应关系。2Cross-Encoder (交叉编码器) —— 精度之王这就是典型的Reranker模型所采用的架构。工作原理将查询词Query和文档Document拼接在一起中间用 [SEP] 符号隔开作为一条长文本输入到同一个模型中。模型内部的 Attention 机制可以同时看到 Query 和 Doc 的每一个词。模型直接输出一个 0 到 1 之间的相关性分数。优点极高精度模型能捕捉到 Query 中的某个词与 Doc 中某个词之间的精准联系比如复杂的否定词、语序关系。缺点极慢无法预计算。每来一个查询必须将它与候选文档逐一拼接并运行一遍深度模型。如果召回 1000 个文档就要跑 1000 次推理计算开销极大。五、总结我们先是介绍了 BM25 算法的核心机理围绕 IDF、词频、文档长度三大评判标准展开说明其计算公式与分词、计算 IDF、文档打分、排序的完整流程并指出其相比 TF-IDF 在抑制长文档、平滑词频上的优化。随后对比 BM25 关键词检索与向量检索的优劣前者精于关键词匹配、成本低后者擅长语义理解与同义词处理。接着阐述混合检索实践及分数融合难点重点讲解 RRF 分数融合策略与计算公式。最后介绍 Reranking 召回优化流程对比 Bi-Encoder 与精度更高的 Cross-Encoder 编码器差异。整体梳理了从传统关键词检索到语义检索、混合召回再到精排的完整检索优化体系为高效检索系统构建提供清晰思路。

更多文章