CANN oam-tools asys功能约束
asys工具功能及约束【免费下载链接】oam-tools本项目为开发者提供故障定位工具包含故障信息收集软硬件信息展示AI core error报错分析等能力提升故障问题定位效率文档可在昇腾社区搜索“故障处理简介”选择社区版。项目地址: https://gitcode.com/cann/oam-tools功能介绍为提高系统故障维测效率提供故障信息收集工具asys一键式收集信息。该工具仅支持在Ascend EP形态下使用。工具支持以下功能故障信息收集不复跑业务仅收集故障信息例如软硬件信息、日志等。业务复跑故障信息收集复跑业务后再收集故障信息例如软硬件信息、日志等。软硬件、Device状态信息展示收集安装包版本信息、Device温度、功率等。健康检查检查所有Device或指定Device的健康状态若不健康会展示报错信息。综合检测涉及压力检测、HBM硬件检测、CPU检测等功能。组件检测当前只支持AI Vector组件检测不支持并行执行 。trace文件解析/coredump文件解析/stackcore文件解析/coretrace文件解析/UB文件解析解析各类文件以便后续定位问题。实时堆栈导出该功能适用于业务进程卡住场景以便导出堆栈信息定位问题。环境配置获取或恢复指定配置。AI Core Error故障信息解析执行业务时若日志文件或屏幕打印信息中包含AI Core Error报错例如“there is an aivec error exception”或“there is an aicore error exception”可使用AI Core Error故障信息解析功能快速定位AI Core Error问题的原因提高排查效率。性能数据采集采集关键性能数据辅助用户分析性能问题。表 1asys工具支持收集的信息列表分类描述软件信息涉及软件包版本环境变量软件依赖系统信息。日志信息包括以下信息- Host侧CANN软件栈日志。- Host侧message日志。- Device侧固件日志device-*日志需root权限。- Device侧系统日志message日志device-os日志需root权限。- 黑匣子、stackcore文件、coretrace文件需root权限。- 任务打印日志。- run包安装日志需run包安装用户与应用程序执行用户一致才可收集。dump信息包括以下信息- GE dump图。- TF Adapter dump图。- 发生AI Core Error时生成的dump文件。算子编译*.o、*.json文件-算子编译过程信息文件仅支持在业务复跑时收集算子编译过程信息文件文件内容包括编译成功失败、编译结果是复用的缓存/在线编译/二进制等。asys工具是否能收集到算子编译过程信息取决于用户是否设置NPU_COLLECT_PATH环境变量用于设置故障信息的保存路径若设置则系统会在该环境变量设置的目录下新建子目录/extra-info/ops/在子目录下新建op_compile_stats.log将算子编译过程信息写入log文件此时asys工具则可以收集到算子编译过程信息文件若不设置则系统不会生成对应的log文件因此asys工具也不会收集该文件。自定义算子配置信息*.json文件asys工具是否能收集到自定义算子配置信息取决于用户是否设置以下环境变量- 若用户设置ASCEND_OPP_PATH环境变量用于设置算子库的安装路径则asys工具会根据${ASCEND_OPP_PATH}/vendors/config.ini文件load_priority字段收集${ASCEND_OPP_PATH}/vendors目录下的自定义算子配置信息即config/.json文件否则asys工具不收集。- 若用户设置ASCEND_CUSTOM_OPP_PATH环境变量用于设置自定义算子包安装路径则收集${ASCEND_CUSTOM_OPP_PATH}目录下的自定义算子配置信息即config/.json文件否则asys工具不收集。用户用例执行的命令信息-调试版本的二进制信息即${ASCEND_OPP_PATH}/debug_kernel目录下的信息但需提前配置环境变量ASCEND_OPP_PATH用于设置算子库的安装路径。若未配置ASCEND_OPP_PATH环境变量或该环境变量配置不正确则默认不收集调试版本的二进制信息。说明环境变量的详细配置说明请参见《环境变量参考》。使用约束不支持在Ascend RC形态下使用。相同用户、相同时间段内同机器同时作业时收集到的数据会有交叉。非root用户获取到的数据范围会受限具体限制参考上表中的权限要求。集群、容器、虚拟机、云场景不支持一键式工具收集故障信息。asys工具涉及大量维测信息的收集因此涉及内存占用不建议多进程并行执行否则可能导致asys工具执行出错或环境异常。asys工具会检索trace日志所在的目录若trace日志文件过多可能会导致asys工具执行时间长。trace日志默认存放路径为$HOME/ascend/atrace/关于trace日志的详细介绍请参见《日志参考》中的“查看trace日志”。【免费下载链接】oam-tools本项目为开发者提供故障定位工具包含故障信息收集软硬件信息展示AI core error报错分析等能力提升故障问题定位效率文档可在昇腾社区搜索“故障处理简介”选择社区版。项目地址: https://gitcode.com/cann/oam-tools创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻

ComfyUI TTP Toolset:突破8K图像处理瓶颈的分块处理革命

ComfyUI TTP Toolset:突破8K图像处理瓶颈的分块处理革命

ComfyUI TTP Toolset:突破8K图像处理瓶颈的分块处理革命 【免费下载链接】Comfyui_TTP_Toolset for tile the image for advanced control or modification 项目地址: https://gitcode.com/gh_mirrors/co/Comfyui_TTP_Toolset 在AI图像生成的浪潮中&#xf…

2026/6/19 23:17:35阅读更多 →
BetterNCM安装器:网易云音乐插件一键安装终极指南

BetterNCM安装器:网易云音乐插件一键安装终极指南

BetterNCM安装器:网易云音乐插件一键安装终极指南 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer BetterNCM安装器是一款专为网易云音乐PC客户端设计的现代化插件管理工具&…

2026/6/19 23:17:35阅读更多 →
KETTLE日志记录、任务巡检、邮件发送

KETTLE日志记录、任务巡检、邮件发送

1. KETTLE日志记录配置实战 第一次接触KETTLE日志记录时,我也被那些专业术语搞得一头雾水。但经过几个项目的实战,我发现这套机制其实特别实用。想象一下,你手上有几十个定时任务在跑,如果没有完善的日志系统,排查问题…

2026/6/19 23:17:35阅读更多 →
3大核心技巧:快速掌握SillyTavern角色创建系统,打造专业级AI对话体验

3大核心技巧:快速掌握SillyTavern角色创建系统,打造专业级AI对话体验

3大核心技巧:快速掌握SillyTavern角色创建系统,打造专业级AI对话体验 【免费下载链接】SillyTavern LLM Frontend for Power Users. 项目地址: https://gitcode.com/GitHub_Trending/si/SillyTavern 你是否曾遇到过这样的困境:花时间创…

2026/6/20 0:27:42阅读更多 →
Labelimg标注工具JPG格式支持异常:从Qt版本到环境变量的全链路排查指南

Labelimg标注工具JPG格式支持异常:从Qt版本到环境变量的全链路排查指南

1. 当Labelimg无法识别JPG图片时,先检查这些基础配置 遇到Labelimg打不开JPG格式图片的问题时,很多开发者第一反应就是重装软件,但其实80%的问题都能通过基础排查解决。我去年帮团队处理过二十多起类似案例,发现最常见的三个排查点…

2026/6/20 0:27:41阅读更多 →
3分钟彻底解决Mac鼠标滚动卡顿问题:Mos平滑滚动工具完整指南

3分钟彻底解决Mac鼠标滚动卡顿问题:Mos平滑滚动工具完整指南

3分钟彻底解决Mac鼠标滚动卡顿问题:Mos平滑滚动工具完整指南 【免费下载链接】Mos 一个用于在 macOS 上平滑你的鼠标滚动效果或单独设置滚动方向的小工具, 让你的滚轮爽如触控板 | A lightweight tool used to smooth scrolling and set scroll direction independe…

2026/6/20 0:27:41阅读更多 →
从贝叶斯视角到工程实践:Monte Carlo Dropout如何量化深度模型的认知不确定性

从贝叶斯视角到工程实践:Monte Carlo Dropout如何量化深度模型的认知不确定性

1. 贝叶斯视角下的模型不确定性 在传统机器学习中,我们常常只关注模型的预测结果,却忽略了模型对预测结果的"自信程度"。想象一下,当医生给你诊断时,如果他说"可能是感冒,但我不太确定"&#xff0…

2026/6/20 0:27:41阅读更多 →
5分钟掌握LXMusic音源:开启全网音乐一站式畅听体验

5分钟掌握LXMusic音源:开启全网音乐一站式畅听体验

5分钟掌握LXMusic音源:开启全网音乐一站式畅听体验 【免费下载链接】LXMusic音源 lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/guoyue2010/lxmusic- 你是否厌倦了在多个音乐App之间频繁切换?是否曾因…

2026/6/20 0:27:41阅读更多 →
GLM-5.1抢购背后的流量控制与开发者破局策略

GLM-5.1抢购背后的流量控制与开发者破局策略

1. 这不是手速问题,是整套供给逻辑在“卡你脖子”最近朋友圈和开发者群被一条消息刷屏:“GLM-5.1 Coding Plan 开售”,配图是倒计时页面、截图里密密麻麻的“已售罄”红字,还有人晒出凌晨三点设闹钟的备忘录。我点开链接前&#x…

2026/6/20 0:22:41阅读更多 →
【课程设计/毕业设计】基于 Web 的高校县志馆藏信息综合管理系统设计与实现 基于Django的青岛滨海学院特色文献捐赠流转管理系统的设计与实现【附源码、数据库、万字文档】

【课程设计/毕业设计】基于 Web 的高校县志馆藏信息综合管理系统设计与实现 基于Django的青岛滨海学院特色文献捐赠流转管理系统的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/6/20 0:02:40阅读更多 →
MC68HC908RF2A定时器PWM生成原理与实战:无缓冲与缓冲模式详解

MC68HC908RF2A定时器PWM生成原理与实战:无缓冲与缓冲模式详解

1. 项目概述与核心价值在嵌入式开发,尤其是电机驱动、LED调光、开关电源这些需要精确控制“能量”的领域,脉冲宽度调制(PWM)技术是工程师手中的一把瑞士军刀。它的本质很简单:用一个固定频率的方波,通过改变…

2026/6/20 0:02:40阅读更多 →
在银河麒麟V10桌面(2205版本)上实战部署软RAID 1:从模块黑名单到自动挂载

在银河麒麟V10桌面(2205版本)上实战部署软RAID 1:从模块黑名单到自动挂载

1. 银河麒麟V10桌面系统与软RAID 1基础认知 第一次在银河麒麟V10桌面上折腾软RAID 1时,我踩了不少坑。这个国产操作系统基于Linux内核,但2205版本对软RAID模块做了特殊处理,需要额外操作才能正常使用。软RAID 1其实就是磁盘镜像技术&#xff…

2026/6/20 0:02:40阅读更多 →