AI 系列:强化学习 vs 对比学习,简述
2025-09-13
1. 强化学习(Reinforcement Learning, RL)
含义
- 强化学习是一种「试错反馈」的学习方式,模型通过与环境交互,根据行为获得奖励(reward)或惩罚(penalty),逐步学习到最优策略。
- 在 LLM 领域,强化学习并不是让模型玩游戏,而是通过「人类反馈」或「偏好数据」去调整模型生成的分布。
典型应用场景
- RLHF(Reinforcement Learning with Human Feedback):用
人工
标注的偏好数据训练奖励模型(Reward Model),再用 RL 算法(比如PPO
)优化 LLM,使其更符合人类偏好。- 例如 ChatGPT、Claude 都用了 RLHF。
- RLAIF(Reinforcement Learning from AI Feedback):用
另一个LLM模型
(而不是人工)提供反馈,更高效。 - 长期规划任务:如智能体(Agent)需要多步推理、工具调用时,可以通过 RL 优化策略。
特点
- 通过
奖励信号
对整体行为优化,更适合「对话质量、符合价值观、长期目标」类任务。 - 训练成本较高(需要
奖励模型
+RL 算法
+ 大规模算力)。
2. 对比学习(Contrastive Learning, CL)
含义
- 对比学习是一种
拉近正样本
、拉远负样本
的学习方式。 - 给定一对样本(
anchor
+positive
+negative
),模型要学会把它们映射到相似的向量空间
;同时,区分开负样本
。
典型应用场景
- Embedding 模型训练:
- 句向量(Sentence Embedding)、文本匹配、语义检索(Retrieval)大量用对比学习(如 InfoNCE、Triplet Loss、CoSENT)。
- 对话模型的微调:
- 通过
正例=更符合人类偏好的答案
,负例=较差答案
,训练模型区分高低质量输出。
- 通过
- 跨模态学习:
CLIP
:图像 ↔ 文本对比学习,学到共享语义空间
。
特点
- 主要用于
表示学习
(representation learning),尤其是检索
、排序
、匹配
等需要明确区分相似与不相似的任务。 - 训练相对高效,不需要复杂奖励模型。
3. 两者对比
维度 | 强化学习 (RL) | 对比学习 (CL) |
---|---|---|
目标 | 学会在环境中,通过奖励最大化 找到最优策略 |
学会区分:相似 vs 不相似 的样本 |
训练信号 | 奖励函数(通常来自人类反馈或奖励模型) | 样本对(正例 / 负例) |
应用重点 | 对话优化、价值观对齐、长序列策略 | Embedding、检索、排序、跨模态表示 |
难度 & 成本 | 训练复杂,需要奖励模型 & RL 算法 & 大算力 | 相对轻量,只需正负样本对 |
典型代表 | ChatGPT 的 RLHF,Agent 规划 | SimCSE、CLIP、BGE/M3E/XiaoBu Embedding |
4.总结
一句话总结:
- 强化学习 → 学
行为策略
,用于人类对齐/对话优化。 - 对比学习 → 学
表示空间
,用于语义检索/匹配。
原文地址:https://ningg.top/ai-series-rl-vs-cl-intro/