本文分类:news发布日期:2026/3/5 17:28:07
打赏

相关文章

[学习笔记]强化学习之actor-critic

继续,策略梯度之后就是actor-critic 策略梯度很好用,是吧? 那么就面临了一个问题 直接拟合策略,不像通过价值函数那样,可以通过简单方式来判断其优劣 直接表现在训练上就是,它比dqn要难以收敛。 虽然在倒立摆这个…

设计“可吃可降解”的包装膜分子,传统塑料难降解,颠覆淀粉基高分子优化,输出安全可食,防水的包装材料。

可吃可降解包装膜智能设计系统 —— 颠覆淀粉基高分子的“安全防水”革命一、实际应用场景描述场景:某连锁快餐品牌计划替换外卖餐盒与零食包装,目标是采用可直接食用或自然降解的环保材料,解决传统塑料包装(PE/PP)百年…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部