NingG +

AI 系列:Embedding 与 Rerank

RAG系统中, 通常会有几个设置:

  1. embedding模型
  2. rerank模型
  3. TopK, TopN

Embedding 比较好理解, 将内容打成向量, 然后可以在查找时通过 夹角大小/余弦相似度找到最接近的向量, 换言之完成了相似度​的寻找.

1. Embedding 嵌入

Embedding 是RAG流程的第一步,属于 “召回(Retrieval)” 阶段。

2. Rerank 重排

Rerank 是RAG流程的可选但强烈推荐的第二步,属于 “精排(Ranking)” 阶段,发生在Embedding召回之后,LLM生成之前。

3. TopK/TopN

这两个是参数,而不是模型。它们是用来控制流程中“数量”的“阀门”。在RAG流程中,我们通常会区分使用它们。

4. Embedding模型的评估

我们该怎么判断一个embedding是好还是坏呢? 有什么典型的评判标准呢?

以Qwen3新发布的embedding模型博客作为起点, 让我们继续看看.

Embedding模型的Benchmark主要围绕一个核心问题:

为此,业界建立了一套标准化的评测集和评测方法,其中最著名和最权威的就是 MTEB (Massive Text Embedding Benchmark) 。你在Qwen的博客中看到的MTEB-R​, CMTEB-R​等,都是基于MTEB体系的。

4.1. 核心评测任务分类

Embedding模型的评测不是单一维度的,而是涵盖了多种任务,以全面考察其能力。MTEB将这些任务分成了几个大类:

4.2. 标准化的评测数据集

为了公平比较,Benchmark必须在公开、标准的数据集上进行。MTEB整合了来自不同任务和语言的大量数据集。

独立的 Embedding model、Rerank Model 评估。

1.Embedding Model 的独立评估

目标:检索时 embedding 的“语义表征能力”。

常见指标:

  • Retrieval Quality(检索质量)

    • Recall\@k:Top-k 检索结果中是否包含正确答案。
    • Precision\@k:Top-k 中相关文档占比。
    • MRR(Mean Reciprocal Rank):正确文档出现的倒数排名均值。
    • nDCG(Normalized Discounted Cumulative Gain):考虑排序位置的加权相关度。
  • Embedding 表征评估

    • Clustering Purity / NMI / ARI:聚类效果。
    • STS(Semantic Textual Similarity):与人工打分的句子语义相似度对比。
    • Domain Adaptation Check:在目标领域是否维持语义区分度。

2.Rerank Model 的独立评估

目标:在候选文档集合中,模型是否能把“更相关”的排在前面。

常见指标(多用于信息检索 IR 领域):

  • MAP(Mean Average Precision):多个 query 的平均准确率。
  • MRR(Mean Reciprocal Rank):关注第一个相关文档的排名。
  • nDCG(Normalized Discounted Cumulative Gain)\@k:加权排序质量,越相关的文档排得越靠前得分越高。
  • Hit Rate\@k:前 k 个结果里是否有相关文档。
  • Pairwise Accuracy成对比较文档时,模型是否正确判断哪个更相关。

总结

  • Embedding model → Recall\@k, MRR, nDCG, STS
  • Rerank model → MAP, nDCG, Pairwise Accuracy

这样,RAG 效果可以从 检索-排序-生成 三个环节独立衡量,也能整体衡量。

关联资料

RAG两大核心利器: M3E-embedding和bge-rerank

原文地址:https://ningg.top/ai-series-embedding-model-and-rerank-intro/
微信公众号 ningg, 联系我

同类文章:

微信搜索: 公众号 ningg, 联系我, 交个朋友.

Top