CANN/cannbot-skills Kirin向量加法模板
目录结构介绍【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills├── kirin_add_template │ ├── cmake // 编译工程文件 │ │ ├── Modules/ // CCE编译器检测模块通用无需修改 │ │ └── npu/CMakeLists.txt // NPU编译配置通用无需修改 │ ├── input // 存放脚本生成的输入数据目录 │ ├── output // 存放算子运行输出数据和真值数据的目录 │ ├── scripts │ │ ├── acl.json // ACL初始化配置默认空JSON │ │ ├── gen_data.py // 生成输入数据和golden真值需修改 │ │ └── verify_result.py // 输出与golden对比验证需修改 │ ├── add_custom.cpp // 算子核函数实现需替换 │ ├── data_utils.h // 通用文件读写/日志工具无需修改 │ ├── main.cpp // Host侧主程序需修改 │ ├── CMakeLists.txt // 顶层CMake配置无需修改 │ └── run.sh // 一键编译执行验证脚本需修改代码实现介绍本调用样例中实现的是固定shape为8*2048的Add算子。kernel实现Add算子的数学表达式为z x y计算逻辑是Ascend C提供的矢量计算接口的操作元素都为LocalTensor输入数据需要先搬运进片上存储然后使用计算接口完成两个输入参数相加得到最终结果再搬出到外部存储上。Add算子的实现流程分为3个基本任务CopyInComputeCopyOut。CopyIn任务负责将Global Memory上的输入Tensor xGm和yGm搬运到Local Memory分别存储在xLocal、yLocalCompute任务负责对xLocal、yLocal执行加法操作计算结果存储在zLocal中CopyOut任务负责将输出数据从zLocal搬运至Global Memory上的输出Tensor zGm中。具体请参考add_custom.cpp。调用实现CPU侧运行验证主要通过ICPU_RUN_KF CPU调测宏等CPU调测库提供的接口来完成NPU侧运行验证主要通过使用内核调用符来完成。应用程序通过ASCENDC_CPU_DEBUG 宏区分代码逻辑运行于CPU侧还是NPU侧。运行样例算子打开样例目录cd $HOME/ops/kirin_add_template配置环境变量这里的$HOME需要替换为本仓根目录export ASCEND_INSTALL_PATH$HOME/Ascend/cann-mobile/cann-8.5.0样例执行bash run.sh -r [RUN_MODE] -v [SOC_VERSION]RUN_MODE编译方式simNPU仿真。SOC_VERSIONKirinX90 或者 Kirin9030。示例如下。bash run.sh -r sim -v Kirin9030run.sh的完整执行流程为解析参数通过-vSoC版本、-r运行模式sim/cpu/npu、-iCANN安装路径解析命令行参数确定CANN路径按优先级从ASCEND_TOOLKIT_HOME→ASCEND_HOME_PATH→ 用户指定路径 → 默认路径查找校验参数验证SoC版本必须是 KirinX90/Kirin9030运行模式必须是 sim/cpu/npuKirin SoC不支持cpu模式配置仿真环境如果是sim模式设置模拟器库路径LD_LIBRARY_PATH和日志目录编译清理build目录通过CMake配置并编译生成可执行文件生成测试数据用gen_data.py生成输入和golden数据执行运行编译出的可执行文件在模拟器上执行算子验证结果用verify_result.py对比输出与golden数据确认误差在容忍范围内清理删除仿真日志和vcd文件基于本模板开发新自定义算子以下以开发一个mul乘法算子为例说明如何将本模板改造为新算子工程。步骤1复制模板并重命名cp -r kirin_add_template mul_template cd mul_template rm -rf build add_sim *_cpu *_npu cceprint npuchk *.vcd sim_log input/*.bin output/*.bin步骤2修改run.sh— FILE_NAMErun.sh:27中的FILE_NAME控制编译产物名称和CMake target名。改为新算子名FILE_NAMEmul # 原: FILE_NAMEadd步骤3替换add_custom.cpp— 核函数实现这是最核心的修改整个文件替换为新算子实现。需要修改的内容计算常量行19-24根据新算子的数据总量、核心数、分块策略调整constexpr int32_t TOTAL_LENGTH 8 * 2048; constexpr int32_t USE_CORE_NUM 1; constexpr int32_t BLOCK_LENGTH TOTAL_LENGTH / USE_CORE_NUM; constexpr int32_t TILE_NUM 8; constexpr int32_t BUFFER_NUM 2; constexpr int32_t TILE_LENGTH BLOCK_LENGTH / TILE_NUM / BUFFER_NUM;Kernel类名和逻辑替换类名修改Init/Process/CopyIn/Compute/CopyOutInit调整 GlobalTensor 数量和类型Compute将AscendC::Add替换为目标计算接口例如AscendC::MulCopyIn/CopyOut调整输入/输出队列数量和搬运逻辑核函数入口行84-88改名为新算子名调整参数列表extern C __global__ __aicore__ void mul_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z) { KernelMul op; op.Init(x, y, z); op.Process(); }Host调用桥接函数行94-97改函数名与核函数名一致void mul_custom_do(uint32_t blockDim, void *l2ctrl, void *stream, uint8_t *x, uint8_t *y, uint8_t *z) { mul_customblockDim, l2ctrl, stream(x, y, z); }步骤4修改main.cpp— Host侧调用接口extern声明行21/24改为新算子名extern void mul_custom_do(uint32_t blockDim, void* l2ctrl, void* stream, uint8_t* x, uint8_t* y, uint8_t* z); // CPU分支: extern C __global__ __aicore__ void mul_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z);数据大小行30-31根据新算子的输入/输出shape和数据类型调整size_t inputByteSize 8 * 2048 * sizeof(uint16_t); // half uint16_t size_t outputByteSize 8 * 2048 * sizeof(uint16_t);调用点行75改函数名参数与核函数保持一致mul_custom_do(blockDim, nullptr, stream, xDevice, yDevice, zDevice);输入数据读取行68-69如果输入参数数量/名称变化需同步调整ReadFile的文件名步骤5修改scripts/gen_data.py— 生成输入和真值根据新算子的数学定义修改def gen_golden_data_simple(): input_x np.random.uniform(1, 100, [8, 2048]).astype(np.float16) input_y np.random.uniform(1, 100, [8, 2048]).astype(np.float16) golden (input_x * input_y).astype(np.float16) # 改 Add 为 Mul input_x.tofile(./input/input_x.bin) input_y.tofile(./input/input_y.bin) golden.tofile(./output/golden.bin)需要修改的内容Shape如果算子shape不同修改[8, 2048]及数据类型np.float16/np.float32/np.int32等输入参数数量增减输入文件如3输入算子需要额外生成input_w.bin计算公式将改为目标运算输出文件名如有多输出需生成多个 golden 文件步骤6修改scripts/verify_result.py— 验证逻辑根据输出数据类型调整# 如输出为 float32: output np.fromfile(output, dtypenp.float32).reshape(-1) golden np.fromfile(golden, dtypenp.float32).reshape(-1) # 调整容差float32精度更高时可用更小容差 relative_tol 1e-5 absolute_tol 1e-8 error_tol 1e-5无需修改的文件文件原因data_utils.h通用工具函数与算子无关CMakeLists.txt顶层只做add_subdirectory(cmake/npu)无算子名cmake/npu/CMakeLists.txt使用${smoke_testcase}变量由CMake参数传入cmake/Modules/*CCE编译器检测模块通用scripts/acl.jsonACL配置默认为空{}常见扩展场景的修改要点场景需修改的文件改数据类型half→floatadd_custom.cppGlobalTensor/LocalTensor类型、main.cppsizeof、gen_data.pydtype、verify_result.pydtype容差改Shapeadd_custom.cppTOTAL_LENGTH等常量、main.cppinputByteSize、gen_data.pyshape多输入3个以上add_custom.cpp增加队列和GlobalTensor、main.cpp增加malloc/read/memcpy、gen_data.py增加输入文件多输出add_custom.cpp增加输出队列、main.cpp增加mallocWriteFile、gen_data.py增加golden文件、verify_result.py多输出对比多核并行add_custom.cpp调整USE_CORE_NUM和GetBlockIdx逻辑、main.cpp调整blockDim关键概念速查核函数extern C __global__ __aicore__修饰的函数是NPU上的执行入口_do桥接函数在核函数实现文件中用调用符包装核函数供main.cpp的Host侧调用ASCENDC_CPU_DEBUG宏区分CPU调测分支和NPU/仿真分支Kirin SoC目前仅支持NPU/仿真分支双缓冲BUFFER_NUM2通过队列深度为2实现流水线一个buffer搬运时另一个buffer计算【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻

关系数据库产品有哪些?2026主流选型指南与国产替代方案深度对比

关系数据库产品有哪些?2026主流选型指南与国产替代方案深度对比

📌 今日关键词:关系数据库产品、关系型数据库有哪些、国产关系数据库、数据库选型、Oracle替代、MySQL替代、信创数据库大家好,我是数据库小学妹 👋 做技术选型,选项少反而好办。最头疼的是面前摆了一堆,每…

2026/6/23 17:08:40阅读更多 →
3分钟快速上手:BiliDownloader - 你的B站视频下载神器

3分钟快速上手:BiliDownloader - 你的B站视频下载神器

3分钟快速上手:BiliDownloader - 你的B站视频下载神器 【免费下载链接】BiliDownloader BiliDownloader是一款界面精简,操作简单且高速下载的b站下载器 项目地址: https://gitcode.com/gh_mirrors/bi/BiliDownloader 想要永久保存B站上的精彩视频…

2026/6/23 18:19:02阅读更多 →
高效调试器配置实战:从视觉优化到远程协作的完整指南

高效调试器配置实战:从视觉优化到远程协作的完整指南

1. 调试器配置:从视觉优化到远程协作的实战指南 调试器,对于每一位开发者而言,都像是外科医生的手术刀,是精准定位病灶、剖析程序内部运行机理的必备工具。一个配置得当的调试器,不仅能让你在茫茫代码中快速锁定一个变…

2026/6/23 17:59:42阅读更多 →
Qwen 3.6-35B-A3B实测:MoE+4bit模型在阿里云T4上的工程落地

Qwen 3.6-35B-A3B实测:MoE+4bit模型在阿里云T4上的工程落地

1. 项目概述:为什么这个标题值得深挖——不是跑个benchmark,而是看清Qwen 3.6-35B-A3B在真实工程场景中的“筋骨”你点开这个标题,大概率不是想看一句“性能很强”或者“吊打Llama 3”,而是手头正卡在某个具体问题上:比…

2026/6/24 7:18:07阅读更多 →
语雀前端八股文B--------B:知识压缩与面试验证的工程实践

语雀前端八股文B--------B:知识压缩与面试验证的工程实践

1. “前端八股文B--------B语雀”到底在指什么?——一场被符号化了的集体备考行为你刷到这个标题时,第一反应可能是:这串带长横线的“B--------B”是乱码?是排版错误?还是某种加密暗号?其实它不是故障&…

2026/6/24 7:18:07阅读更多 →
Gemini 3.1 Flash-Lite:面向高TPS场景的轻量级LLM工程实践

Gemini 3.1 Flash-Lite:面向高TPS场景的轻量级LLM工程实践

1. 项目概述:这不是一次“升级”,而是一次精准的工程收缩 Gemini 3.1 Flash-Lite Preview 这个名字本身就带着一种克制的信号——它没叫“Pro”、没叫“Ultra”,甚至没加“v2”,而是用“Lite”和“Preview”两个词,把…

2026/6/24 7:18:07阅读更多 →
MPC8309复位与时钟系统详解:从RCW配置到时钟树构建

MPC8309复位与时钟系统详解:从RCW配置到时钟树构建

1. MPC8309复位与时钟系统:从硬件上电到稳定运行的核心基石在嵌入式系统开发,尤其是网络通信、工业控制这类对稳定性和实时性要求极高的领域,处理器的启动过程绝非简单的“通电即用”。它更像是一场精密的交响乐,复位配置&#xf…

2026/6/24 7:18:07阅读更多 →
Plot Subfunctions:数据可视化工程化实践,提升MATLAB/Python绘图效率

Plot Subfunctions:数据可视化工程化实践,提升MATLAB/Python绘图效率

1. 项目概述:Plot Subfunctions 到底是什么?如果你用过 MATLAB、Python 的 Matplotlib 或者 R 的 ggplot2 画过图,那你肯定不止一次地写过重复的代码。比如,每次画图都要设置一遍字体大小、线条样式、图例位置;或者&am…

2026/6/24 7:18:07阅读更多 →
Git源码泄露:原理、探测与防御全解析

Git源码泄露:原理、探测与防御全解析

1. 项目概述:当你的代码仓库“门户大开”在渗透测试或者日常的安全巡检中,我们常常会听到“源码泄露”这个词。这听起来可能不如“远程代码执行”或“SQL注入”那么惊心动魄,但它的危害性却常常被低估。想象一下,你精心构建的堡垒…

2026/6/24 7:13:07阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/23 7:04:52阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 2:12:09阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/23 5:55:37阅读更多 →
TaskJuggler脚本编程入门:用代码实现自动化项目管理

TaskJuggler脚本编程入门:用代码实现自动化项目管理

TaskJuggler脚本编程入门:用代码实现自动化项目管理 【免费下载链接】TaskJuggler TaskJuggler - Project Management beyond Gantt chart drawing 项目地址: https://gitcode.com/gh_mirrors/ta/TaskJuggler TaskJuggler是一款强大的开源项目管理工具&#…

2026/6/24 0:02:41阅读更多 →
终极教程:使用angular-mobile-nav实现流畅的移动页面过渡效果

终极教程:使用angular-mobile-nav实现流畅的移动页面过渡效果

终极教程:使用angular-mobile-nav实现流畅的移动页面过渡效果 【免费下载链接】angular-mobile-nav An angular navigation service for mobile applications 项目地址: https://gitcode.com/gh_mirrors/an/angular-mobile-nav angular-mobile-nav是一款专为…

2026/6/24 0:02:41阅读更多 →
Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程:无需代码的AI视频创作

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程:无需代码的AI视频创作

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程:无需代码的AI视频创作 【免费下载链接】Wan2.1-Fun-V1.1-1.3B-InP 项目地址: https://ai.gitcode.com/hf_mirrors/PAI/Wan2.1-Fun-V1.1-1.3B-InP Wan2.1-Fun-V1.1-1.3B-InP是一款强大的AI视频创作工具,…

2026/6/24 0:02:41阅读更多 →