本文分类:news发布日期:2026/4/29 15:05:43
打赏

相关文章

[AI]DeepSeek-R1的GRPO算法

GRPO(Group Relative Policy Optimization)是 DeepSeek 在训练 DeepSeek-R1 推理模型时提出并推广的策略优化算法。它本质上是对 PPO 的极简手术:砍掉 Critic 网络,用组内采样的相对奖励来估计优势函数,从而将 RLHF 的…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部