本文分类:news发布日期:2026/3/31 18:22:13
打赏

相关文章

昇腾AI训练中grad_norm异常诊断:从NAN溯源到算子级修复

1. 昇腾AI训练中grad_norm异常现象解析 第一次在昇腾平台上跑大模型训练任务时,看到日志里突然蹦出grad_normNAN的报错,我整个人都是懵的。grad_norm这个看似简单的指标,实际上是模型训练健康的晴雨表。简单来说,它就是所有参数梯…

ConvNeXt 改进 :ConvNeXt采用WTConv卷积(感受野的小波卷积),ECCV 2024,实现高效涨点,二次创新CNBlock结构 ,独家首发

本文教的是方法,也给出几种改进方法,二次创新结构,百变不离其宗,一文带你改进自己模型,科研路上少走弯路。 前言 WTConv(基于小波变换的卷积层),用于在卷积神经网络(CNN)中实现大感受野。作者通过利用小波变换,设计了一个卷积层,可以在保持少量可训练参数的情况下…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部