大模型训练中的网络瓶颈分析
网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员 大家好我是展菲 全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、为什么单机时代没有网络问题二、为什么模型越大网络越重要三、AllReduce最大的通信杀手四、为什么 GPU 越多扩展效率越差五、PCIe最容易被忽略的瓶颈六、MoE 为什么更依赖网络七、Pipeline Parallel 最大的问题也是网络八、为什么 InfiniBand 成为 AI 集群标配九、为什么 NCCL 如此重要十、未来最大的瓶颈East-West Traffic十一、下一代训练系统正在消灭网络等待通信计算重叠OverlapGradient CompressionZeRO 参数Sequence ParallelExpert ParallelIn-network Computing总结引言过去两年大模型行业有一个非常有意思的现象。很多团队一开始优化的都是GPU CPU 显存 NVMe结果训练跑起来以后发现GPU 利用率只有 30%于是开始排查CUDA Kernel FlashAttention 混合精度折腾半天发现GPU 根本没在计算而是在等待。等待什么很多时候答案只有两个字网络越来越多团队发现大模型训练真正的瓶颈正在从单卡算力变成集群通信尤其当模型进入70B 671B 1T规模以后整个系统已经从Compute Bound慢慢变成Network Bound很多时候GPU 越多 训练反而越慢因此今天我们从 AI Infra 的角度聊聊一个容易被忽略但决定训练效率上限的问题为什么大模型训练越来越卡在网络一、为什么单机时代没有网络问题早期训练模型ResNet BERT GPT-2规模通常只有几亿参数单机 8 卡就能完成。架构GPU1 GPU2 GPU3 ... GPU8通过NVLink进行通信。特点距离短 带宽高 延迟低例如NVLink900GB/s远远高于100Gb Ethernet ≈12.5GB/s因此那时候计算 通信网络几乎不是问题。二、为什么模型越大网络越重要训练 GPT 类模型本质上是Forward ↓ Backward ↓ Gradient Sync其中Forward本地计算Backward本地计算而真正跨节点发生的是Gradient AllReduce例如70B 模型140GB 参数FP16一次同步梯度140GB如果1024 张 GPU每一步训练都需要数百 GB 的通信于是训练流程变成Compute ↓ Wait Network ↓ Compute ↓ Wait NetworkGPU 大量时间在等待。最终GPU 利用率下降三、AllReduce最大的通信杀手几乎所有分布式训练都会遇到AllReduce例如8 张卡GPU1 GPU2 ... GPU8每张卡都有Gradient训练结束后需要求和 平均 同步形成所有 GPU 参数一致过程如下Ring AllReduceGPU1 → GPU2 ↓ GPU3 ↓ GPU4 ... ↓ GPU1问题在于通信量约为2 × (N-1)/NGPU 数量越大通信时间越长于是出现一个反直觉现象增加 GPU 训练不加速甚至变慢因为Network Compute四、为什么 GPU 越多扩展效率越差理论上8卡 ↓ 16卡 ↓ 32卡速度应该线性提升现实往往是GPU数量理论加速实际加速88x7.8x6464x52x256256x160x10241024x500x原因在于计算复杂度几乎不变O(1)但通信复杂度不断增长。最终强扩展效率下降这也是为什么Scale-up比Scale-out更受欢迎大家更喜欢单机8卡 ↓ 单机16卡 ↓ 单机72卡而不是几百台服务器五、PCIe最容易被忽略的瓶颈很多人觉得网络瓶颈 IB 网络其实不一定服务器内部还有CPU PCIe GPU数据路径GPU ↓ PCIe ↓ CPU ↓ NIC ↓ 网络PCIe Gen464GB/s而 H100 算力1000TFLOPS因此很容易出现GPU等待PCIe形成PCIe Bound所以很多 AI 服务器大量采用NVSwitch绕过 CPU形成GPU ↔ GPU直接互联。六、MoE 为什么更依赖网络Dense Model每个 GPU 负责固定 Layer通信比较规律MoE 模型不同。例如128 个 ExpertToken 到来时Router ↓ Expert17 ↓ Expert82 ↓ Expert33Expert 分散在不同节点于是每一步都会发生All-to-All通信相比AllReduce更加恐怖因为数据随机 无法预测 无法连续网络压力瞬间增加。这也是为什么DeepSeek V3、Mixtral、Qwen-MoE 都极度依赖RDMA InfiniBand七、Pipeline Parallel 最大的问题也是网络PP将模型切成Stage1 ↓ Stage2 ↓ Stage3 ↓ Stage4每层部署到不同 GPUForwardActivation需要不断传递BackwardGradient又要反向传递于是形成Bubble现象。如果网络慢整个流水线停顿。表现为GPU0 100% GPU1 80% GPU7 30%利用率严重失衡。因此PP 的核心优化其实是减少通信等待八、为什么 InfiniBand 成为 AI 集群标配普通以太网TCP/IP路径GPU ↓ CPU ↓ Kernel ↓ NIC ↓ Network存在上下文切换 协议栈开销延迟较高。而 InfiniBand支持RDMA实现GPU Memory ↓ Remote GPU Memory直接访问绕过CPU Kernel延迟下降μs级带宽达到400Gb/s 800Gb/s因此现代 AI 集群几乎都在使用IB RDMA架构。九、为什么 NCCL 如此重要训练时真正执行通信的并不是 PyTorch。而是NCCL负责AllReduce AllGather ReduceScatter AllToAll它决定GPU 如何走网络例如自动选择Ring Tree Hierarchical算法还会根据NVLink PCIe IB动态调优。很多时候训练性能差 20%根本不是模型问题。而是NCCL 参数没调好例如NCCL_IB_HCA NCCL_SOCKET_IFNAME NCCL_P2P_LEVEL都会影响性能。十、未来最大的瓶颈East-West Traffic训练集群越来越大例如10000 GPU甚至100000 GPU此时网络流量不再是North-South而是East-West即GPU ↔ GPU节点 ↔ 节点大量横向流量。 特点高带宽、低延迟、持续传输因此未来 AI 数据中心竞争核心不再只是GPU 数量而是网络拓扑包括Fat Tree Dragonfly Clos NVLink Domain设计。十一、下一代训练系统正在消灭网络等待目前行业最热门方向包括通信计算重叠Overlap把Backward和AllReduce同时执行实现Hide CommunicationGradient CompressionFP16↓FP8↓INT8减少传输量。ZeRO 参数Shard减少同步数据。Sequence Parallel减少 Activation 传输。Expert Parallel局部通信。In-network Computing利用交换机完成Reduce操作例如NVIDIA SHARP进一步降低延迟。总结如果用一句话总结大模型训练中的网络瓶颈模型越来越大但光速没有变。从工程角度来看训练网络瓶颈主要来自AllReduce AllToAll Pipeline Activation PCIe RDMA NCCL East-West Traffic过去限制 AI 的是算力不足现在限制 AI 的越来越是通信效率未来大模型训练竞争的核心很可能不再是谁 GPU 更多而是谁能让上万张 GPU 像一张 GPU 一样高效协同。因为在万卡时代真正昂贵的已经不是 FLOPS。而是等待。

相关新闻

Python软件包的安装的3种方法(超级详细)

Python软件包的安装的3种方法(超级详细)

有些 Python 软件包是系统自带的,如 sys,这些包在安装 Python 时已自动安装。但有些包是需要自行下载安装的,如 PIL。这些第三方的软件有的以源代码的形式提供,有的以安装包的形式提供。安装第三方 Python 包的方法有很多种。本节…

2026/6/24 23:37:16阅读更多 →
Chatbox AI桌面助手终极指南:3分钟打造你的个人AI工作台

Chatbox AI桌面助手终极指南:3分钟打造你的个人AI工作台

Chatbox AI桌面助手终极指南:3分钟打造你的个人AI工作台 【免费下载链接】chatbox Powerful AI Client 项目地址: https://gitcode.com/GitHub_Trending/ch/chatbox 你是否曾在浏览器标签页间不断切换,只为与不同的AI助手对话?或者担心…

2026/6/24 21:42:43阅读更多 →
仪表工程师60条现场实战经验

仪表工程师60条现场实战经验

在仪表选型、安装、调试与维护的全生命周期中,现场经验往往比理论更能避免事故。本文汇总了60条来自河自仪一线仪表工程师的实战经验,按主题分类整理,供同行参考。 一、电缆与信号:布线规范与信号完整性 电缆敷设与信号处理&#…

2026/6/25 0:44:31阅读更多 →
MPC862程序流追踪与硬件调试:从原理到实战解决嵌入式通信系统难题

MPC862程序流追踪与硬件调试:从原理到实战解决嵌入式通信系统难题

1. MPC862程序流追踪:从硬件原理到实战调试在嵌入式通信系统的开发里,最让人头疼的莫过于程序“跑飞”了。你看着板子上的指示灯乱闪,串口输出一堆乱码,但就是不知道CPU到底执行了哪条指令、在哪个分支上出了问题。尤其是在像MPC8…

2026/6/24 23:23:10阅读更多 →
基于Tor Hidden Service的匿名通信系统Ricochet架构深度解析

基于Tor Hidden Service的匿名通信系统Ricochet架构深度解析

1. 项目概述:为什么我们需要一个“终极”匿名通信方案?在数字世界里,隐私和匿名性正变得越来越奢侈。我们每天使用的即时通讯工具,无论是微信、Telegram还是Signal,都在不同程度上依赖于中心化的服务器。这意味着&…

2026/6/24 23:23:10阅读更多 →
多重冒号(::)在编程中的核心作用:从命名空间到代码组织

多重冒号(::)在编程中的核心作用:从命名空间到代码组织

1. 项目概述:从“多重冒号”到代码的优雅表达最近在代码审查和开源项目里,我时不时会看到一个叫“Multiple-Colon”的讨论点。乍一看这个标题,你可能会有点懵:冒号不就是个标点吗,还能玩出什么花样?但如果你…

2026/6/24 23:23:10阅读更多 →
LINPACK基准测试:从原理到实战,全面解析HPC性能评估金标准

LINPACK基准测试:从原理到实战,全面解析HPC性能评估金标准

1. 项目概述:从“超级计算机的标尺”到“无处不在的性能度量”如果你在服务器、高性能计算(HPC)甚至个人电脑的评测里,看到过“双精度浮点性能达到XX TFlops”这样的描述,那背后十有八九站着LINPACK的身影。LINPACK Be…

2026/6/24 23:23:10阅读更多 →
OpenClaw:面向业务流程的智能体操作系统架构解析

OpenClaw:面向业务流程的智能体操作系统架构解析

1. OpenClaw 不是“另一个 Agent 框架”,而是面向真实业务流的智能体操作系统 你点开 GitHub 上 OpenClaw 的 README,第一眼看到的不是“支持多模型”“内置 20 Skill”,而是一张带虚线边框的三层架构图:最上层写着 Business Fl…

2026/6/24 23:23:10阅读更多 →
Claude Code Auto Mode:CLI驱动的VS Code智能协同范式

Claude Code Auto Mode:CLI驱动的VS Code智能协同范式

1. Auto Mode不是“全自动”,而是Claude Code里最被误解的交互范式很多人第一次看到“Claude Code Auto Mode”这个名称,下意识就联想到“代码全自动生成”“不用敲一个字就能跑通项目”——我刚接触时也这么想。结果在VS Code里点开Auto Mode&#xff0…

2026/6/24 23:18:07阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/24 7:33:03阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/24 7:37:00阅读更多 →