本文分类:news发布日期:2026/6/15 13:11:26
打赏

相关文章

CANN单边通信库hixl在PD分离推理中的实战应用:昇腾NPU大模型Prefill-Decode分离部署与零拷贝通信优化深度指南

前言 在一批昇腾NPU上部署千亿参数模型推理服务时遇到了一个棘手的问题:Prefill阶段吃满了算力,Decode阶段却在等KV Cache搬完才能动,整个推理流水线被卡在通信环节上。那段时间几乎把HCCL的文档翻了个底朝天,尝试了各种集合通信方…

【毕业设计】基于 SpringBoot 的智汇家园设备报修维护台账系统 智慧社区物业报修维修管理平台(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部