NingG +

AI 系列:强化学习 vs 对比学习,简述

1. 强化学习(Reinforcement Learning, RL)

含义

典型应用场景

特点

2. 对比学习(Contrastive Learning, CL)

含义

典型应用场景

特点

3. 两者对比

维度 强化学习 (RL) 对比学习 (CL)
目标 学会在环境中,通过奖励最大化找到最优策略 学会区分:相似 vs 不相似的样本
训练信号 奖励函数(通常来自人类反馈或奖励模型) 样本对(正例 / 负例)
应用重点 对话优化、价值观对齐、长序列策略 Embedding、检索、排序、跨模态表示
难度 & 成本 训练复杂,需要奖励模型 & RL 算法 & 大算力 相对轻量,只需正负样本对
典型代表 ChatGPT 的 RLHF,Agent 规划 SimCSE、CLIP、BGE/M3E/XiaoBu Embedding

4.总结

一句话总结

原文地址:https://ningg.top/ai-series-rl-vs-cl-intro/
微信公众号 ningg, 联系我

同类文章:

微信搜索: 公众号 ningg, 联系我, 交个朋友.

Top