CANN/cannbot-skills Kirin向量加法模板
目录结构介绍【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills├── kirin_add_template │ ├── cmake // 编译工程文件 │ │ ├── Modules/ // CCE编译器检测模块通用无需修改 │ │ └── npu/CMakeLists.txt // NPU编译配置通用无需修改 │ ├── input // 存放脚本生成的输入数据目录 │ ├── output // 存放算子运行输出数据和真值数据的目录 │ ├── scripts │ │ ├── acl.json // ACL初始化配置默认空JSON │ │ ├── gen_data.py // 生成输入数据和golden真值需修改 │ │ └── verify_result.py // 输出与golden对比验证需修改 │ ├── add_custom.cpp // 算子核函数实现需替换 │ ├── data_utils.h // 通用文件读写/日志工具无需修改 │ ├── main.cpp // Host侧主程序需修改 │ ├── CMakeLists.txt // 顶层CMake配置无需修改 │ └── run.sh // 一键编译执行验证脚本需修改代码实现介绍本调用样例中实现的是固定shape为8*2048的Add算子。kernel实现Add算子的数学表达式为z x y计算逻辑是Ascend C提供的矢量计算接口的操作元素都为LocalTensor输入数据需要先搬运进片上存储然后使用计算接口完成两个输入参数相加得到最终结果再搬出到外部存储上。Add算子的实现流程分为3个基本任务CopyInComputeCopyOut。CopyIn任务负责将Global Memory上的输入Tensor xGm和yGm搬运到Local Memory分别存储在xLocal、yLocalCompute任务负责对xLocal、yLocal执行加法操作计算结果存储在zLocal中CopyOut任务负责将输出数据从zLocal搬运至Global Memory上的输出Tensor zGm中。具体请参考add_custom.cpp。调用实现CPU侧运行验证主要通过ICPU_RUN_KF CPU调测宏等CPU调测库提供的接口来完成NPU侧运行验证主要通过使用内核调用符来完成。应用程序通过ASCENDC_CPU_DEBUG 宏区分代码逻辑运行于CPU侧还是NPU侧。运行样例算子打开样例目录cd $HOME/ops/kirin_add_template配置环境变量这里的$HOME需要替换为本仓根目录export ASCEND_INSTALL_PATH$HOME/Ascend/cann-mobile/cann-8.5.0样例执行bash run.sh -r [RUN_MODE] -v [SOC_VERSION]RUN_MODE编译方式simNPU仿真。SOC_VERSIONKirinX90 或者 Kirin9030。示例如下。bash run.sh -r sim -v Kirin9030run.sh的完整执行流程为解析参数通过-vSoC版本、-r运行模式sim/cpu/npu、-iCANN安装路径解析命令行参数确定CANN路径按优先级从ASCEND_TOOLKIT_HOME→ASCEND_HOME_PATH→ 用户指定路径 → 默认路径查找校验参数验证SoC版本必须是 KirinX90/Kirin9030运行模式必须是 sim/cpu/npuKirin SoC不支持cpu模式配置仿真环境如果是sim模式设置模拟器库路径LD_LIBRARY_PATH和日志目录编译清理build目录通过CMake配置并编译生成可执行文件生成测试数据用gen_data.py生成输入和golden数据执行运行编译出的可执行文件在模拟器上执行算子验证结果用verify_result.py对比输出与golden数据确认误差在容忍范围内清理删除仿真日志和vcd文件基于本模板开发新自定义算子以下以开发一个mul乘法算子为例说明如何将本模板改造为新算子工程。步骤1复制模板并重命名cp -r kirin_add_template mul_template cd mul_template rm -rf build add_sim *_cpu *_npu cceprint npuchk *.vcd sim_log input/*.bin output/*.bin步骤2修改run.sh— FILE_NAMErun.sh:27中的FILE_NAME控制编译产物名称和CMake target名。改为新算子名FILE_NAMEmul # 原: FILE_NAMEadd步骤3替换add_custom.cpp— 核函数实现这是最核心的修改整个文件替换为新算子实现。需要修改的内容计算常量行19-24根据新算子的数据总量、核心数、分块策略调整constexpr int32_t TOTAL_LENGTH 8 * 2048; constexpr int32_t USE_CORE_NUM 1; constexpr int32_t BLOCK_LENGTH TOTAL_LENGTH / USE_CORE_NUM; constexpr int32_t TILE_NUM 8; constexpr int32_t BUFFER_NUM 2; constexpr int32_t TILE_LENGTH BLOCK_LENGTH / TILE_NUM / BUFFER_NUM;Kernel类名和逻辑替换类名修改Init/Process/CopyIn/Compute/CopyOutInit调整 GlobalTensor 数量和类型Compute将AscendC::Add替换为目标计算接口例如AscendC::MulCopyIn/CopyOut调整输入/输出队列数量和搬运逻辑核函数入口行84-88改名为新算子名调整参数列表extern C __global__ __aicore__ void mul_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z) { KernelMul op; op.Init(x, y, z); op.Process(); }Host调用桥接函数行94-97改函数名与核函数名一致void mul_custom_do(uint32_t blockDim, void *l2ctrl, void *stream, uint8_t *x, uint8_t *y, uint8_t *z) { mul_customblockDim, l2ctrl, stream(x, y, z); }步骤4修改main.cpp— Host侧调用接口extern声明行21/24改为新算子名extern void mul_custom_do(uint32_t blockDim, void* l2ctrl, void* stream, uint8_t* x, uint8_t* y, uint8_t* z); // CPU分支: extern C __global__ __aicore__ void mul_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z);数据大小行30-31根据新算子的输入/输出shape和数据类型调整size_t inputByteSize 8 * 2048 * sizeof(uint16_t); // half uint16_t size_t outputByteSize 8 * 2048 * sizeof(uint16_t);调用点行75改函数名参数与核函数保持一致mul_custom_do(blockDim, nullptr, stream, xDevice, yDevice, zDevice);输入数据读取行68-69如果输入参数数量/名称变化需同步调整ReadFile的文件名步骤5修改scripts/gen_data.py— 生成输入和真值根据新算子的数学定义修改def gen_golden_data_simple(): input_x np.random.uniform(1, 100, [8, 2048]).astype(np.float16) input_y np.random.uniform(1, 100, [8, 2048]).astype(np.float16) golden (input_x * input_y).astype(np.float16) # 改 Add 为 Mul input_x.tofile(./input/input_x.bin) input_y.tofile(./input/input_y.bin) golden.tofile(./output/golden.bin)需要修改的内容Shape如果算子shape不同修改[8, 2048]及数据类型np.float16/np.float32/np.int32等输入参数数量增减输入文件如3输入算子需要额外生成input_w.bin计算公式将改为目标运算输出文件名如有多输出需生成多个 golden 文件步骤6修改scripts/verify_result.py— 验证逻辑根据输出数据类型调整# 如输出为 float32: output np.fromfile(output, dtypenp.float32).reshape(-1) golden np.fromfile(golden, dtypenp.float32).reshape(-1) # 调整容差float32精度更高时可用更小容差 relative_tol 1e-5 absolute_tol 1e-8 error_tol 1e-5无需修改的文件文件原因data_utils.h通用工具函数与算子无关CMakeLists.txt顶层只做add_subdirectory(cmake/npu)无算子名cmake/npu/CMakeLists.txt使用${smoke_testcase}变量由CMake参数传入cmake/Modules/*CCE编译器检测模块通用scripts/acl.jsonACL配置默认为空{}常见扩展场景的修改要点场景需修改的文件改数据类型half→floatadd_custom.cppGlobalTensor/LocalTensor类型、main.cppsizeof、gen_data.pydtype、verify_result.pydtype容差改Shapeadd_custom.cppTOTAL_LENGTH等常量、main.cppinputByteSize、gen_data.pyshape多输入3个以上add_custom.cpp增加队列和GlobalTensor、main.cpp增加malloc/read/memcpy、gen_data.py增加输入文件多输出add_custom.cpp增加输出队列、main.cpp增加mallocWriteFile、gen_data.py增加golden文件、verify_result.py多输出对比多核并行add_custom.cpp调整USE_CORE_NUM和GetBlockIdx逻辑、main.cpp调整blockDim关键概念速查核函数extern C __global__ __aicore__修饰的函数是NPU上的执行入口_do桥接函数在核函数实现文件中用调用符包装核函数供main.cpp的Host侧调用ASCENDC_CPU_DEBUG宏区分CPU调测分支和NPU/仿真分支Kirin SoC目前仅支持NPU/仿真分支双缓冲BUFFER_NUM2通过队列深度为2实现流水线一个buffer搬运时另一个buffer计算【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻

关系数据库产品有哪些?2026主流选型指南与国产替代方案深度对比

关系数据库产品有哪些?2026主流选型指南与国产替代方案深度对比

📌 今日关键词:关系数据库产品、关系型数据库有哪些、国产关系数据库、数据库选型、Oracle替代、MySQL替代、信创数据库大家好,我是数据库小学妹 👋 做技术选型,选项少反而好办。最头疼的是面前摆了一堆,每…

2026/6/17 15:58:44阅读更多 →
3分钟快速上手:BiliDownloader - 你的B站视频下载神器

3分钟快速上手:BiliDownloader - 你的B站视频下载神器

3分钟快速上手:BiliDownloader - 你的B站视频下载神器 【免费下载链接】BiliDownloader BiliDownloader是一款界面精简,操作简单且高速下载的b站下载器 项目地址: https://gitcode.com/gh_mirrors/bi/BiliDownloader 想要永久保存B站上的精彩视频…

2026/6/17 15:58:44阅读更多 →
高效调试器配置实战:从视觉优化到远程协作的完整指南

高效调试器配置实战:从视觉优化到远程协作的完整指南

1. 调试器配置:从视觉优化到远程协作的实战指南 调试器,对于每一位开发者而言,都像是外科医生的手术刀,是精准定位病灶、剖析程序内部运行机理的必备工具。一个配置得当的调试器,不仅能让你在茫茫代码中快速锁定一个变…

2026/6/17 15:58:44阅读更多 →
抖音内容管理革命:如何用开源工具高效收藏无水印作品

抖音内容管理革命:如何用开源工具高效收藏无水印作品

抖音内容管理革命:如何用开源工具高效收藏无水印作品 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…

2026/6/17 18:00:25阅读更多 →
RedPill RR引导器:三分钟实现群晖DSM在普通硬件上的高效部署

RedPill RR引导器:三分钟实现群晖DSM在普通硬件上的高效部署

RedPill RR引导器:三分钟实现群晖DSM在普通硬件上的高效部署 【免费下载链接】rr Redpill Recovery (arpl-i18n) 项目地址: https://gitcode.com/gh_mirrors/rr2/rr RedPill RR是一款专为非官方硬件运行群晖DSM系统设计的开源引导加载器,通过定制…

2026/6/17 18:00:25阅读更多 →
终极指南:如何在5分钟内将PC游戏串流到任天堂Switch

终极指南:如何在5分钟内将PC游戏串流到任天堂Switch

终极指南:如何在5分钟内将PC游戏串流到任天堂Switch 【免费下载链接】SkyNX Stream your PC games to your Nintendo Switch without Android! 项目地址: https://gitcode.com/gh_mirrors/sk/SkyNX 想在任天堂Switch上畅玩PC游戏却不想安装Android系统&#…

2026/6/17 18:00:25阅读更多 →
Unity游戏如何快速适配微信小游戏:5步完整转换指南

Unity游戏如何快速适配微信小游戏:5步完整转换指南

Unity游戏如何快速适配微信小游戏:5步完整转换指南 【免费下载链接】minigame-unity-webgl-transform 微信小游戏Unity引擎适配器文档。 项目地址: https://gitcode.com/GitHub_Trending/mi/minigame-unity-webgl-transform 想要将你的Unity游戏快速移植到微…

2026/6/17 18:00:25阅读更多 →
Mythos门控机制:面向高风险场景的可信推理增强

Mythos门控机制:面向高风险场景的可信推理增强

1. 项目概述:一次被刻意“收窄”的能力跃迁最近在追踪大模型能力演进时,反复看到“TAI #200”这个编号——它不是某家公司的内部代号,而是The AI Index Report(斯坦福AI百年研究项目发布的年度权威技术评估报告)第200期…

2026/6/17 18:00:25阅读更多 →
Alkaid系统:基于距离约束编码的鲁棒隐写术

Alkaid系统:基于距离约束编码的鲁棒隐写术

1. Alkaid系统概述:当隐写术遇上距离约束编码在信息安全领域,隐写术(Steganography)一直扮演着"隐形墨水"的角色——它不像加密技术那样直接扰乱信息内容,而是将秘密信息巧妙地隐藏在看似普通的载体中。传统…

2026/6/17 17:55:24阅读更多 →
飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

OpenClaw 2.7.9 对接飞书机器人完整配置教程 本文讲解借助长连接模式打通 OpenClaw 与飞书的操作流程,配置完成后,可在飞书私聊、群组内发送指令,调用本地 AI 实现电脑自动化操作。整体流程分为飞书平台创建应用、权限配置、密钥填写三大环节…

2026/6/17 10:40:20阅读更多 →
嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

1. 嵌入式处理器:从“大脑”到“神经系统”的进化 在电子设备无处不在的今天,我们很少会去思考一个智能设备是如何“思考”和“行动”的。无论是汽车引擎的精准控制、工厂机械臂的流畅运转,还是智能家居的自动响应,其背后都离不开…

2026/6/17 10:40:20阅读更多 →
如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南 【免费下载链接】BallonsTranslator 深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered by deeplearning 项目地…

2026/6/17 10:40:20阅读更多 →