本文分类:news发布日期:2026/4/20 21:16:47
打赏

相关文章

强化学习1——初步理解PPO

目录 一、前言 二、初步理解PPO, DPO, GRPO强化学习 三、PPO算法:初步理解 一、PPO 四大模块的功能映射 二、关键区别的深层分析 1. 目标性质不同 2. 学习信号不同 3. 探索-利用机制的本质差异 三、PPO 作为"内源学习"的实现 四、统一框架&…

强化学习2——初步理解DPO

目录 一、前言 二、初步理解DPO 一、DPO 解决了 PPO 的什么核心问题? PPO 的痛点(RLHF 范式) DPO 的解决思路 二、DPO 与九步认知循环的深层对比 1. 结构映射:DPO 在你的框架中处于什么位置? 2. 核心区别&…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部