本文分类:news发布日期:2026/3/5 9:44:00
打赏

相关文章

[学习笔记]强化学习之策略梯度

之前大概把强化学习基础看了,但是发现已经忘完了...回来补一下策略梯度trpo等等,一点一点补吧... 首先是策略梯度 之前的强化学习,是基于Q-table的,也就是基于价值函数。 决策路线大概是:策略——利用价值函数判断…

P4735 最大异或和

点击查看代码 #include <bits/stdc++.h> using namespace std;const int N = 600005; const int MAX_NODES = N * 25; //max_id,存经过某个节点的最大下标,用于下界区间的判断 int ch[MAX_NODES][2], max_id[…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部