本文分类:news发布日期:2026/1/18 19:36:14
相关文章
算子优化实战:手写 Triton Kernel,将 LayerNorm 算子的执行时间压缩 50%
标签: #Triton #CUDA #AICompiler #HPC #PyTorch #LayerNorm 📉 前言:为什么 PyTorch 原生算子还不够快?
PyTorch 的 torch.nn.LayerNorm 虽然底层调用了 cuDNN 或 ATen 的优化实现,但在处理特定 Shape 或与其他算子结合时,依然存在性能损耗: 显存带宽瓶颈:LayerNorm…
建站知识
2026/1/18 19:36:08
51单片机智能遮阳篷窗户帘衣架蓝牙APP光雨滴检测41(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
51单片机智能遮阳篷窗户帘衣架蓝牙APP光雨滴检测41(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
产品功能描述:
本系统由STC89C52单片机、雨滴传感器、光照传感器、蓝牙模块、继电器、拨动开关及电源组成
1、可以…
建站知识
2026/1/18 19:35:29
Java 并发探秘:JCTools 源码剖析,为什么 Netty 放弃 JDK 自带队列而选择 MpscArrayQueue?
标签: #Java #Netty #JCTools #Concurrency #Performance #FalseSharing🐢 前言:JDK 队列的痛点
在 Netty 的 Reactor 线程模型中,EventLoop 本质上是一个单线程的执行器。
它需要处理两类任务:
IO 事件:来…
建站知识
2026/1/18 19:35:21
Go 调度器 (GMP) 揭秘:从汇编角度看 Goroutine 是如何实现“协程切换”的?
标签: #Go #Golang #GMP #Assembly #Runtime #Concurrency🚀 前言:GMP 的本质是“复用”
操作系统线程(OS Thread)太重了。创建一个线程需要 1-8MB 栈内存,切换一次需要进入内核态,耗时 1-2 微秒…
建站知识
2026/1/18 19:33:59
【创新未发表】基于matlab鸡群算法CSO和自适应双种群协同鸡群算法ADPCCSO无人机避障三维航迹规划【含Matlab源码 14980期】
💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞Ὁ…
建站知识
2026/1/18 19:33:42
第 174 场双周赛Q2——3810. 变成目标数组的最少操作次数
题目链接:3810. 变成目标数组的最少操作次数(中等) 算法原理: 解法:模拟 38ms击败11.30% 时间复杂度O(N) ①先计算出哪些是需要修改的 ②统计需要修改的下标 ③原数组中相同的数可以一起修改,所以只要统计不…
建站知识
2026/1/18 19:33:08
【无人机三维路径规划】基于matlab鸡群算法CSO和自适应双种群协同鸡群算法ADPCCSO复杂山地模型下无人机路径规划【含Matlab源码 14981期】
💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞Ὁ…
建站知识
2026/1/18 19:32:12

