本文分类:news发布日期:2026/6/12 13:37:39
打赏

相关文章

多任务学习与负迁移检测:NLP 多目标训练的调优策略

多任务学习与负迁移检测:NLP 多目标训练的调优策略一、任务冲突的隐秘陷阱:多任务学习中的负迁移现象 多任务学习(Multi-Task Learning, MTL)通过共享表示层同时学习多个相关任务,理论上可以利用任务间的互补信息提升整…

手撕张量并行:PyTorch+FSDP实战LLaMA-3-8B

发散创新:手撕张量并行——从原理到 PyTorch FSDP 实战切分 LLaMA-3-8B 张量并行(Tensor Parallelism, TP)不是“把模型拆开扔给多个 GPU 就完事”的黑盒魔法,而是对线性层权重与前向/反向计算流的精确时空解耦。它直击大模型训练…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部