Agent Skill 状态机工程:Mode-Step 网格如何拆开工作流边界
先识别问题长 prompt 失控不是文字问题很多 Skill 一开始都很朴素读输入、分析、调用脚本、生成结果、做一次校验。第一次上线时一个workflow.md足够清楚。真正的麻烦通常发生在后面用户要重跑校验、只改某个结论、从中断处恢复维护者于是不断往同一个文件里加if create、if validate、if edit、if resume。这时继续补一句“不要跳过步骤”或者“验证阶段禁止修改文件”效果很有限。模型看到的仍然是一团混合状态它同时知道生成链路、验证链路、编辑链路和恢复链路也就容易在该只读的时候顺手修复在该局部修改的时候重新生成全文。长 prompt 失控本质不是文字太多而是生命周期、权限和完成条件混在了同一层。图长 workflow 中的状态混杂如何导致边界失控。失控迹象常见补丁更底层的原因模型跳过中间步骤反复强调“必须逐步执行”每一步没有独立完成条件也没有明确的下一跳Validate 阶段顺手修复再写一条“只读”规则验证和编辑共享同一上下文边界只靠自然语言提醒中途失败只能从头跑让模型重新读取全部材料进度没有外化产物也没有检查点文件越写越长继续追加分支说明入口路由、执行逻辑、校验门禁被放在同一层判断一个 Skill 是否需要升级不看它有多少行 prompt而看它是否已经拥有多个生命周期。如果同一个入口既要创建、又要校验、还要局部编辑或续跑那么它已经不是“提示词写得更细”能解决的问题。Mode-Step 网格把生命周期和执行步骤分开Tri-Modal Step File 的核心可以压成一句话外层按 Mode 分生命周期内层按 Step 分执行阶段。Agent 先进入某个 Mode再加载该 Mode 下的当前 Step File。每个文件只承担一段很窄的职责。换句话说​Mode 管生命周期Step 管当前动作​。这两个维度拆开以后生成、校验、编辑、续跑才不会在同一份提示词里互相污染。图Mode-Step 网格把生命周期和当前动作拆开让模型只进入一个窄边界状态。图Mode 管生命周期Step 管当前执行阶段。Mode典型目录适合处理的意图必须守住的边界Createsteps-c/从零读取上下文、分析材料、生成目标产物可以创建新 artifact但要按 Step 前进Validatesteps-v/对已有产物做重新校验、覆盖率检查、差异核对默认只读只输出PASS / CONCERNS / FAILEditsteps-e/针对某个章节、规则、finding 做局部修改先评估影响范围再做定点替换避免重生成Resume通常不单独成目录读取 frontmatter、sentinel 或日志判断从哪里继续只负责路由不承担业务执行这个拆法的好处很实际新增一次局部编辑能力不必去改 Create 主链路补一个重新校验规则也不会把生成逻辑搅乱。维护者先找 Mode再找 Step改动范围通常会小很多。Step File给模型一个局部执行契约Step File 不是把长 prompt 切成几段那么简单。它更像一份小契约告诉模型这一步唯一目标是什么可以看哪些上下文哪些事情绝对不能做执行顺序是什么怎样算完成完成后去哪里。图Step File 像一份局部执行契约把目标、边界、顺序和验收条件钉住。图一个 Step File 应同时约束目标、边界、顺序、验收和下一跳。一个可维护的 Step File 至少应该写清这些内容契约字段解决的问题写作要点STEP GOAL防止模型在本步做太多事用一句话说清本步唯一目标MANDATORY RULES固定必须遵守的纪律少而硬不写泛泛的价值观CONTEXT BOUNDARIES防止上下文外溢明确可读材料、可写文件和禁止动作MANDATORY SEQUENCE防止跳步写成可执行顺序不写抽象建议SUCCESS CRITERIA让步骤可验收用可判断的完成条件不用“尽量完善”NEXT STEP让状态可转移成功、失败、需人工介入时分别去哪目录结构也不需要复杂关键是让人一眼看出生命周期和步骤边界skills/your-skill/ ├── SKILL.md ├── workflow.md ├── workflow.yaml ├── steps-c/ │ ├── step-01-gather-inputs.md │ ├── step-02-analyze.md │ └── step-03-generate-output.md ├── steps-v/ │ └── step-01-validate.md ├── steps-e/ │ └── step-01-assess-and-edit.md ├── scripts/ ├── references/ └── templates/其中workflow.md不应该继续承载业务细节。它只做初始化、参数优先级处理、预检查、模式判断和首步路由。确定性逻辑尽量放进scripts/比如解析输入、做 diff、检查格式、统计覆盖率、渲染报告。LLM 更适合做语义理解、归纳和取舍不适合靠记忆执行一堆机械门禁。按状态加载不是少读上下文而是读对上下文Step File 经常被误解成“减少上下文”。减少当然有价值但更关键的是按状态加载上下文。普通渐进式加载是按需读资料主要缓解 token 压力Mode-Step 加载是先判断状态再读取这个状态需要的材料目标是压住边界漂移。图Mode-Step 加载不是少读上下文而是按状态读取正确上下文。当 Agent 知道自己处在Validate / step-02-check它就不需要同时携带 Create 的生成细则和 Edit 的替换策略。它只需要读校验输入、执行检查、输出结论。边界越窄模型越不容易“热心过头”。这种设计还会自然带来检查点。每个 Step 的输出可以写入 artifact frontmatter、状态文件或 sentinel。下一次 Resume 不是让模型猜“我上次做到哪了”而是读取状态记录再回到对应 Mode 的对应 Step。图Step 输出、检查点和 Gate 共同支撑续跑与失败恢复。什么时候值得上什么时候别上这个模式不是默认模板。一次性问答、单脚本调用、输入输出都很单一的小工具没必要套一层工程结构。越早过度工程化越容易把简单问题写复杂。更好的触发信号是流程已经出现第二个生命周期或者失败后重跑成本明显变高。比如同一个 Skill 既要生成长期产物又要允许后续校验和局部修订或者它需要多人维护PR 里经常有人看不出到底该改哪段规则。适合使用 Mode-Step不适合使用 Mode-Step同一个 Skill 同时支持生成、校验、编辑、恢复一次性问答或一次性改写有 3 个以上连续步骤且每步有中间产物两三句话就能说清的小工具输入来源复杂需要参数优先级和缺失处理输入单一、输出单一、失败成本低流程可能中断需要从中间继续没有中间状态也不沉淀 artifact多人长期维护需要明确修改边界短期实验性 prompt一个很实用的判断是如果你已经在workflow.md里写了第二条if mode ...就该停一下。继续往下堆分支并不是不行但那通常意味着你正在用 prompt 模拟一个没有显式建模的状态机。从旧 Skill 迁移先切主链路再隔离校验迁移不必一步到位。最稳的做法是先保留原来的用户入口只把 Create 主链路切成几个 Step。这样用户行为不变维护者却能立刻获得更短的上下文和更清楚的执行边界。图迁移旧 Skill 时先切主链路再隔离校验和检查点风险最低。迁移阶段具体做法为什么这样风险低切出steps-c/把原有主流程拆成输入收集、分析、生成几个 Step不改变入口只降低单步复杂度增加检查点给产物写stepsCompleted、changelog或 sentinelResume 有了事实依据不靠模型记忆隔离steps-v/把重新校验从 Create 中拿出来Validate 的只读边界最容易被污染值得优先隔离补steps-e/在真实出现局部返工后再设计编辑路径Edit 的边界来自实际场景过早设计容易空泛从设计顺序看不要先问“我要建几个 Step 文件”。先问最终产物是什么、哪些错误不能发生、失败时如何发现、哪些逻辑可以脚本化。Step 只是承载这些约束的容器。落地前的工程检查写复杂 Skill 前可以先做一轮很短的设计检查最终产物的路径、格式、更新方式是否明确。用户会触发哪些生命周期Create / Validate / Edit / Resume 是否需要分开。上下文来源是否有优先级显式参数、本地配置、自动探测和询问用户的顺序是否固定。每个 Step 是否只有一个目标是否写明本步不能做什么。失败后能否从某个 Step 恢复而不是从头重跑。解析、格式校验、覆盖率、diff、渲染这些确定性工作是否已经尽量下沉到脚本。Validate 是否只读Edit 是否局部Create 是否不会偷偷承担校验修复职责。每个 Step 末尾是否有明确的下一跳或完成标记。最小可行改造其实不重一个入口workflow.md一条steps-c/主链路再加一条只读的steps-v/校验链路通常就能明显减少跳步、越界和失败后重跑的问题。Resume 和 Edit 可以等真实返工场景出现后再补不必一开始就把所有未来情况设计完。结语别让模型猜状态Prompt 思维经常问“我还要告诉模型什么”Workflow 思维会先问“模型此刻处在哪个状态它能读什么不能做什么完成后转移到哪里”这两个问题不是同一层级。复杂 Skill 的稳定性来自状态显式化、边界契约化、检查点外化和门禁脚本化。长 prompt 能把规则写进去但很难保证模型在正确的时间只使用正确的那一部分。Mode-Step 网格的价值就在于把这些隐含状态拆开让模型不用每次都重新猜。

相关新闻

豆包专业版实测:从对话AI到桌面Agent的能力升级

豆包专业版实测:从对话AI到桌面Agent的能力升级

本文基于豆包专业版2026年6月24日上线版本实测。此次更新的核心变化不是模型升级,是能力模型的根本转变——从纯对话AI扩展到具备本地任务执行能力的Agent模式。一、核心变化:不是更聪明了,是能动手了 豆包此前版本的能力边界明确&#xff1a…

2026/6/30 4:08:16阅读更多 →
从幼小衔接场景看「适趣古诗词」的古诗启蒙设计

从幼小衔接场景看「适趣古诗词」的古诗启蒙设计

很多家长在幼小衔接阶段都会遇到一个问题:孩子能跟着背几句古诗,但一问“这首诗是什么意思”“诗人在表达什么”,往往就答不上来了。 所以,古诗启蒙的重点不应该只是“背下来”,而是先让孩子理解画面、情绪和故事。最近…

2026/6/30 4:08:16阅读更多 →
深度把玩沛纳海441的老哥,建议先放大50倍看看这处背透机芯的公差

深度把玩沛纳海441的老哥,建议先放大50倍看看这处背透机芯的公差

偶尔有新手抱怨那些手表参数太难懂。有个老粉回他:“你多盯着这头像看两秒,就知道这老哥平时说话有多直白了,连蒙带猜也能看懂个七七八八。”大白话就是最好用的工具,今天咱们继续。古董表的美感,是岁月磨出来的少妇脸…

2026/6/30 4:08:16阅读更多 →
3年以下产品经理需求暴跌42%,但高薪AI岗却激增369%!你还在等什么?

3年以下产品经理需求暴跌42%,但高薪AI岗却激增369%!你还在等什么?

“3年以下经验的产品经理,招聘需求下滑42%。” 看到这个数字,你可能会有点坐不住。不是慢慢变少,而是腰斩式的往下掉。 你现在打开招聘软件试试搜“产品经理”,翻半天可能都找不到几个真的在招的。那些还挂着的,点进去…

2026/6/30 5:13:21阅读更多 →
MySQL 查询优化实战记录

MySQL 查询优化实战记录

MySQL查询优化实战记录:提升性能的关键策略 在数据库应用中,查询性能直接影响用户体验和系统效率。本文基于实际项目经验,分享MySQL查询优化的实战技巧,帮助开发者解决慢查询、高负载等问题,提升数据库响应速度。 索…

2026/6/30 5:13:21阅读更多 →
20人研发团队MacBook选型找谁咨询

20人研发团队MacBook选型找谁咨询

20人研发团队MacBook选型找谁咨询对于20人左右的研发团队而言,MacBook选型并非简单的"买哪款"问题,而是涉及岗位差异化配置、芯片代际选择、企业级部署管理和长期维保策略的系统性决策。建议优先联系具备苹果企业渠道资质和IT集成能力的专业服…

2026/6/30 5:13:21阅读更多 →
Windows桌面应用自动化测试:Appium与WinAppDriver环境搭建与实战指南

Windows桌面应用自动化测试:Appium与WinAppDriver环境搭建与实战指南

1. 项目概述:为什么要在Windows上搭建Appium环境?如果你是一名软件测试工程师,尤其是对测试开发方向感兴趣,那么“自动化测试”这个词对你来说肯定不陌生。而Appium,作为一款开源的、跨平台的移动应用自动化测试框架&a…

2026/6/30 5:13:21阅读更多 →
计费系统性能测试自动化:从JMeter实战到CI/CD集成的工程化指南

计费系统性能测试自动化:从JMeter实战到CI/CD集成的工程化指南

1. 项目概述:为什么计费系统的性能测试是“生死线”?在数字化服务遍地开花的今天,用户可能因为一次流畅的支付体验而成为忠实客户,更可能因为一次“计费失败”或“账单错误”而永远离开。对于任何提供订阅制、按量付费或复杂套餐业…

2026/6/30 5:13:21阅读更多 →
基于大语言模型的智能蜜罐:动态交互与主动防御新范式

基于大语言模型的智能蜜罐:动态交互与主动防御新范式

1. 项目概述:当蜜罐遇上大语言模型在网络安全攻防的猫鼠游戏里,防守方常常处于被动。攻击者可以耐心地扫描、试探,而防御者必须时刻警惕,一个疏忽就可能被突破防线。传统的蜜罐技术,作为一种主动欺骗防御手段&#xff…

2026/6/30 5:08:20阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 4:03:30阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/30 4:36:27阅读更多 →
为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南 【免费下载链接】Destiny-2-Solo-Enabler Repo containing the C# and XAML code for the D2SE program. Included is also the dependency for the program, and image asset. 项目地址: https://gitcode…

2026/6/30 0:02:58阅读更多 →
第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

1. PowerPoint 2010基础操作全攻略 刚接触PowerPoint 2010时,很多人会被它复杂的界面吓到。其实只要掌握几个核心区域,就能快速上手。我最开始用PPT时,经常找不到功能按钮在哪,后来发现主要操作都集中在顶部功能区。 工作窗口主要…

2026/6/30 0:02:58阅读更多 →
XGBoost超参数实战:从理论到调优策略

XGBoost超参数实战:从理论到调优策略

1. XGBoost超参数基础认知 第一次接触XGBoost时,我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果,但按错了就可能坠机。经过多年实战,我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:59阅读更多 →