本文分类:news发布日期:2026/3/3 12:34:55
打赏

相关文章

强化学习算法-1:GRPO、DPO与PPO解析 - Big-Yellow

大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,…

力扣hot100:乘积最大的子数组

题目描述:思路:对于每个位置 i,我们要计算以 nums[i] 为结尾的子数组的最大乘积和最小乘积。最大乘积:最大乘积子数组可以通过前面的最大乘积或者最小乘积来扩展,尤其是当数组中有负数时,最小乘积可能会与负…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部