本文分类:news发布日期:2025/11/21 16:33:06
打赏

相关文章

学习率对于PPO训练的作用

第一部分:PPO的学习率机制 1. 学习率是什么? 在深度学习中,学习率是一个超参数,它控制了我们在每次参数更新时,沿着梯度反方向前进的步长。公式表示:新参数 = 旧参数 - 学习率 * 梯度 学习率过大:更新步伐太大,…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部