本文分类:news发布日期:2026/6/14 15:14:16
打赏

相关文章

Kubernetes GPU 调度:拓扑感知与多租户隔离

Kubernetes GPU 调度:拓扑感知与多租户隔离 一、6 月 14 日集群事故 凌晨,生产集群的 GPU 资源开始打架。几个高优先级的 AI 训练任务同时提交,老调度器只认 CPU 和内存,对 GPU 内部的 NVLink、NVSwitch 连接关系一无所知。 结果就…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部