NingG +

AI 系列:Embedding 与 Rerank

embedding model 和 reranker model 的排行榜单:

RAG系统中, 通常会有几个设置:

  1. embedding模型
  2. rerank模型
  3. TopK, TopN

Embedding 比较好理解, 将内容打成向量, 然后可以在查找时通过 夹角大小/余弦相似度找到最接近的向量, 换言之完成了相似度​的寻找.

1. Embedding 嵌入

Embedding 是RAG流程的第一步,属于 “召回(Retrieval)” 阶段。

2. Rerank 重排

Rerank 是RAG流程的可选但强烈推荐的第二步,属于 “精排(Ranking)” 阶段,发生在Embedding召回之后,LLM生成之前。

3. TopK/TopN

这两个是参数,而不是模型。它们是用来控制流程中“数量”的“阀门”。在RAG流程中,我们通常会区分使用它们。

4. Embedding模型的评估

我们该怎么判断一个embedding是好还是坏呢? 有什么典型的评判标准呢?

以Qwen3新发布的embedding模型博客作为起点, 让我们继续看看.

Embedding模型的Benchmark主要围绕一个核心问题:

为此,业界建立了一套标准化的评测集和评测方法,其中最著名和最权威的就是 MTEB (Massive Text Embedding Benchmark) 。你在Qwen的博客中看到的MTEB-R​, CMTEB-R​等,都是基于MTEB体系的。

4.1. 核心评测任务分类

Embedding模型的评测不是单一维度的,而是涵盖了多种任务,以全面考察其能力。MTEB将这些任务分成了几个大类:

4.2. 标准化的评测数据集

为了公平比较,Benchmark必须在公开、标准的数据集上进行。MTEB整合了来自不同任务和语言的大量数据集。

独立的 Embedding model、Rerank Model 评估。

1.Embedding Model 的独立评估

目标:检索时 embedding 的“语义表征能力”。

常见指标:

  • Retrieval Quality(检索质量)

    • Recall\@k:Top-k 检索结果中是否包含正确答案。
    • Precision\@k:Top-k 中相关文档占比。
    • MRR(Mean Reciprocal Rank):正确文档出现的倒数排名均值。
    • nDCG(Normalized Discounted Cumulative Gain):考虑排序位置的加权相关度。
  • Embedding 表征评估

    • Clustering Purity / NMI / ARI:聚类效果。
    • STS(Semantic Textual Similarity):与人工打分的句子语义相似度对比。
    • Domain Adaptation Check:在目标领域是否维持语义区分度。

2.Rerank Model 的独立评估

目标:在候选文档集合中,模型是否能把“更相关”的排在前面。

常见指标(多用于信息检索 IR 领域):

  • MAP(Mean Average Precision):多个 query 的平均准确率。
  • MRR(Mean Reciprocal Rank):关注第一个相关文档的排名。
  • nDCG(Normalized Discounted Cumulative Gain)\@k:加权排序质量,越相关的文档排得越靠前得分越高。
  • Hit Rate\@k:前 k 个结果里是否有相关文档。
  • Pairwise Accuracy成对比较文档时,模型是否正确判断哪个更相关。

总结

  • Embedding model → Recall\@k, MRR, nDCG, STS
  • Rerank model → MAP, nDCG, Pairwise Accuracy

这样,RAG 效果可以从 检索-排序-生成 三个环节独立衡量,也能整体衡量。

5. Reranker 的必要性

LLM 领域里 Reranker Model(典型如 mMARCO、MiniCPM-Reranker、Jina Reranker)这一类模型的 原理、必要性、和 Embedding 的区别,后面分几个层次来讲清楚。

5.1. Reranker Model 的原理

5.2. 为什么需要重排(从“语义空间的信息完整性”角度看)

5.3. Embedding 与 Reranker 的区别

维度 Embedding (Bi-Encoder) Reranker (Cross-Encoder)
架构 query / doc 各自编码 query+doc 拼接一起建模
特征 向量空间,语义相似度 token 级交互 & 局部匹配
速度 快,适合大规模检索 慢,只能处理 top-k
召回能力 广义语义召回 精细相关性判别
信息完整性 广义语义、关键信息可能缺失 保留更多细节

5.4. 效果是否有提升?

5.5. 总结

6.实践:Qwen

现在 qwen 的 embedding 既是 embedding model 、又是 reranker model 吗? 不是,看下面解释.

下面会梳理一下 Qwen 系列在 embedding 和 reranker 两个角色上的定位

6.1. Qwen embedding 模型

阿里推出了 专门的 embedding 模型,比如:

6.2. Qwen 作为 Reranker

Qwen 主系 LLM(如 Qwen2.5-7BQwen2.5-14B 等),因为是通用生成式大模型,本身具备 cross-encoder 风格的能力,可以用在 reranker 上:

输入格式:

User query: xxx
Candidate doc: yyy
Please judge the relevance (0–5).

目前社区里常见的做法:

6.3. Embedding model 不等于 Reranker model

6.4. 总结

7.实践:MTEB,reranking 任务

为什么 https://huggingface.co/spaces/mteb/leaderboard 中,针对 embedding model 打分的排行榜,也有 reranking 的打分?

这个问题其实涉及到 MTEB (Massive Text Embedding Benchmark) 的设计逻辑,以及“为什么 embedding 模型也能在 reranking 任务上被打分”。

7.1. MTEB 的设计目标

所以排行榜上会看到 embedding 模型在 reranking 上的成绩。

7.2. 为什么 embedding 模型可以测 reranking?

虽然严格意义Reranker = Cross-Encoder,但 MTEB 的 reranking 任务里,很多 embedding 模型的评测方式是这样的:

  1. 构造 (query, doc) pair
  2. embedding 模型分别编码 query 和 doc :得到 语义向量
  3. 计算相似度(cosine / dot product),得分
  4. 把这个分数作为该 pair 的相关性分数,reranker 就是用这个分数来排序的。
  5. 用信息检索指标(MRRnDCGMAP 等)来评测排序效果。

相当于在 “embedding 空间”里模拟 reranking。所以结果往往比专门的 cross-encoder 弱,但可以比较不同 embedding 模型在“排序任务上的能力”。

7.3. 为什么要这样做?

7.4. 总结

embedding 的 reranking 性能:

  1. Embedding 模型
    • 在 reranking 上分数比 Cross-Encoder 低一截,但能用。
    • 如果你只想要“够用”,embedding 相似度直接排序也行。
  2. Cross-Encoder Reranker
    • 在 reranking 上的提升非常显著(通常 +15~20 nDCG)。
    • 工业界常见做法:embedding 召回 top-50 → cross-encoder rerank。
  3. LLM Reranker
    • 性能最好,但代价高。
    • 更多用于复杂 query、长文档或离线评估,而不是大规模在线流量。

HuggingFace MTEB 排行榜里 embedding 模型也有 reranking 分数,主要是为了让人知道:

附录A. Cross-Encoder vs Bi-Encoder

Cross-Encoder 和 Bi-Encoder 是信息检索 / 表征学习里最常见的两种架构,名字听起来差不多,其实差别很大:

A.1. Bi-Encoder(双塔 / 双编码器)

典型模型text-embedding-3, bge-large, Qwen2-embedding

A.2. Cross-Encoder(交叉编码器)

[CLS] query tokens [SEP] document tokens [SEP]

典型模型cross-encoder/ms-marco-MiniLM-L-6-v2, mMARCO, MiniCPM-Reranker, Jina Reranker

A.3. 对比总结

维度 Bi-Encoder Cross-Encoder
输入 Query / Doc 各自独立编码 Query+Doc 拼接后一起编码
相互作用 相似度计算发生在向量空间 Token 级别全交互
速度 快,可大规模检索 慢,只能 rerank
存储 文档向量可预存 不可预存,每次要重算
信息捕捉 粗粒度语义 精细匹配、信息完整
典型用途 粗召回(retrieval) 精排(reranking)

A.4. 总结:

关联资料

RAG两大核心利器: M3E-embedding和bge-rerank

原文地址:https://ningg.top/ai-series-embedding-model-and-rerank-intro/
微信公众号 ningg, 联系我

同类文章:

微信搜索: 公众号 ningg, 联系我, 交个朋友.

Top