做了一个月 Skills,我才理解 Agent 可靠性的本质
把模型当做一个不稳定的组件围绕它对它做工程。提示词工程、上下文工程、Harness Engineering、Loop Engineering。每一个新概念的提出都像金字塔一样是对agent更深一层的提炼和理解。系统可靠的秘诀不在模型会不会说而在它出了岔子以后谁来收拾残局。01 核心前提模型是不稳定的部件模型不是你交代一个任务就稳稳当当给你做完的那种存在。它会忘事会编造会跑偏会在关键时刻掉链子而且犯错了不会主动告诉你甚至会真诚地相信自己是对的。它是一个不稳定的部件。所以问题从一开始就不是怎么让模型更聪明而是既然它不可靠我怎么在外面搭一层东西让它可靠起来这层外面的东西就是工程结构。用结构兜底不用信任兜底。02 Agent 工具自带Harness设计我们现在用的Codex和Claude Code本身已经带着不少Harness思想的影子。它们不是裸模型接口而是在模型外面包了一层工程结构。但我逐渐意识到工具给的是让你能搭出这套结构的底座真正完整的Harness得靠我们在使用和设计时一点一点落进去。在这类Agent系统里我所理解的Harness机制通常包含八个方面心跳循环系统持续运转不会死掉心跳循环就是Agent内部那个持续运转的执行循环。它不是一问一答的聊天机器人而是一个持续转动的机制接收任务整理上下文调用模型执行工具检查结果出错就恢复继续下一轮没有心跳循环Agent就是一次性问答。真实任务往往需要多轮执行改代码、跑测试、看结果、再调整。心跳循环让这些轮次能自动衔接不需要你每轮都重新启动。Codex和Claude Code在对话里天然就带着这个多轮循环的能力这是工具给我们最重要的基础设施之一。例子你让Codex修一个Bug。它不会只回你一句“建议修改某某文件”。它会读取文件、定位问题、修改代码、运行测试。测试失败后它会分析原因再次修改再次测试直到通过然后告诉你修好了。这一连串动作能在一次对话里自动完成靠的就是心跳循环在背后持续运转。你只发了一次指令它自己转了七八轮。权限系统会做不等于有权做权限系统把“模型能做什么”和“模型被允许做什么”分开。模型可能知道怎么执行某个命令但系统要在它执行之前拦一道检查这个操作是否被授权。结果通常有三种允许拒绝需要用户确认Codex和Claude Code对这一块提供了很实在的支持。危险操作会弹窗问你。模型没有判断力。它可能为了完成任务执行危险操作删文件、改配置、推送代码而且不觉得这有什么问题。权限系统是最后一道防线确保不会因为模型的一时冲动造成实际损失。例子你让Codex帮忙清理项目里无用的依赖。它分析完后决定运行npm prune和rm -rf node_modules。前者是常规操作系统可能直接放行。后者是危险命令系统会弹窗问你“Agent 想执行rm -rf node_modules确定吗”你必须点确认它才敢动。模型知道怎么删文件夹但它没有“擅自删文件夹”的权力。上下文治理工具提供自动压缩但分层约定得靠我们上下文治理是一套记忆管理机制。Codex和Claude Code在对话太长时会自动压缩历史腾出空间这部分是工具自己提供的基底。但真正让记忆系统变得可控的是我们主动在外部建立的一套分层约定。记忆分成四层各司其职防止上下文窗口被无用信息塞满。不同的agent工具可能叫法不同。上下文窗口是有限的而且是要花钱的。如果什么都往里塞系统会变慢、变贵还会因为注意力分散而出错。更致命的是真正重要的信息可能被淹没在大量冗余内容里。工具自动压缩能救急但它不理解什么是“重要的”。真正能决定优先级和结构的是我们主动设计好的分层。例子假设你的项目有大量文档。如果不做分层你可能把所有文档全塞进上下文里部署文档、API文档、测试规范、历史变更记录。结果Agent一上来就吃了三万字还没开始干活窗口就快满了。上下文治理的做法是CLAUDE.md只写“部署前必须跑测试、不要手动改生产配置”这种硬规矩几行字。MEMORY.md只写“部署文档 →docs/deploy.md”、“API 文档 →docs/api.md”这种索引。Agent只有在需要部署时才去打开docs/deploy.md看具体步骤。不干活的时候那些正文文件不占窗口。错误恢复工具给了自动恢复的底子但要当主路径来设计错误恢复机制认为模型输出被截断、上下文爆了、工具调用失败、API超时这些不是意外是每天都在发生的事。所以恢复路径不是“异常处理”而是系统设计的主路径之一。Claude Code在上下文快满时自动压缩历史就是一个原生例子。但要真正接住所有意外单靠工具不够。需要在设计Skill时就预埋好恢复逻辑先试低成本的修复不行再加重手段。比如上下文快爆了先清理临时积压再压缩历史对话最后才剥掉更早的对话记录。例子你和Codex聊了很久改了好几个文件上下文窗口快满了。这时候Codex不会突然报错停下而是会在后台自动压缩前面的对话把你之前让它修登录Bug的详细过程压缩成一句“登录 Bug 已修复根因是token过期。”压缩完之后腾出了空间它继续听你的新指令。整个过程你可能完全没感知。这就是错误恢复在主路径里默默起作用。熔断机制工具没给得自己造熔断是给自动重试设上限的机制。当一个操作连续失败一定次数后系统停止重试汇报用户保留现场等待人工介入。Codex和Claude Code本身不会自动帮你熔断这个保护必须由我们在Skill里显式构建。自动重试如果没有上限会导致灾难。自动压缩连续失败会烧掉海量API费用。代码修改连续失败会让代码越来越乱。部署连续失败会污染部署历史。熔断的核心意义是承认当前手段已经失效了。继续重试不是坚持是浪费。例子Codex帮你修一个Bug。它修改代码跑测试失败分析原因再修改再跑测试又失败再修改再跑测试还是失败。这时候如果不停它会一直改下去每次都在烧token而且代码可能越改越乱。在Skill里设置的熔断会在第三次失败后叫停我已经试了三次都没通过。当前代码状态是 xxx测试失败的原因是 xxx需要你来决定下一步。它停下来等你而不是闷头继续。中断处理工具给基础我给闭环中断处理机制保证当用户打断Agent时系统能说清楚“刚才做了什么、什么没做、为什么停了”。工具允许你随时中断也允许继续。但要让未完成的工具调用被补齐一个“被中断”的结果不留悬空的执行记录这需要我自己在Skill流程里把账记清楚。Agent在执行过程中可能调用多个工具改文件、跑测试、查日志。如果你中途打断它有些工具可能已经执行了有些还没开始。如果不补齐记录系统就会留下一堆说不清的状态残片。下一次启动时它不知道哪些做了、哪些没做可能重复执行或者跳过关键步骤。例子你让Codex修改三个文件改到第二个时你发现问题不对按了停止。我会让Skill在这种时候做两件事把已经改完的第一个文件标记为“已完成”把改了一半的第二个文件标记为“被用户中断”把第三个文件标记为“未执行”下一轮对话开始时Codex知道第一个文件改完了第二个文件需要重新确认第三个文件还没动。账本是平的不会乱。验证独立工具不强制但我强制验证独立是一条硬原则写代码的 AI 不能给自己的代码打分。验证必须由独立的视角来执行。要么是独立的快模型要么是独立的验证流程。工具不会阻止你让一个Skill又干活又给自己鼓掌但我会主动拆开。模型会真诚地相信自己写的东西没问题。它太想让你满意了甚至会伪造验证结果生成一段“测试通过”的文本但实际根本没跑测试或者跑了但选择性忽略失败。让实现者验证自己的代码等于让考生给自己的卷子打分。例子你让Codex实现一个新功能。如果它自己实现、自己测试、自己汇报“完成了没问题”你其实不知道它到底测了没。我的做法是拆成两个环节一个Skill负责写代码另一个Skill负责验证。验证Skill不看实现过程只做三件事读最终代码diff实际运行测试把测试结果贴出来通过就通过不通过就给出具体反例。隔离机制工具没给围墙我主动砌墙隔离机制规定多Agent之间默认不共享可变状态。每个Agent有自己的文件读取记录、中断控制器、临时推理空间。只有明确标记为“完成”的结果才通过主Agent中转共享。工具本身没有禁止跨Skill的信息流动所以隔离是我在设计时强行划出来的边界。Agent是不稳定的。一个Agent的误判、幻觉、半成品推理如果自动进入另一个Agent的上下文会污染整个系统。隔离默认的好处是即使某个 Agent 跑偏了它的混乱也只关在自己房间里不影响其他 Agent。例子你让一个Agent研究“为什么登录接口响应慢”同时让另一个Agent研究“为什么支付接口偶尔报错”。如果不做隔离研究登录的Agent可能把它的半成品猜测自动传给研究支付的Agent导致支付那边的Agent也被带偏。它跑去查数据库连接池而实际问题在第三方支付网关。隔离机制确保它们各查各的。两边都出最终结论后由主Agent汇总登录慢是因为索引缺失支付报错是因为网关超时。两个问题不会在调查过程中互相污染。03 Agent 是全局结构的 Harness 设置上面这八个机制合在一起就是Agent层面的Harness思想。工具给我们提供了一些必要的基座心跳循环、权限确认、上下文自动压缩、中断基础支持。但真正让这些变成一套完整工程骨架的是我们自己在设计和使用时有意识地把权限边界、熔断上限、独立验证、状态隔离这些约束钉进去。以前我们在写系统提示词写的是“你是什么人”其实是不对的。系统提示词的作用不是写“你是一个什么样的人”而是写“你能做什么、不能做什么、做错了怎么办”。人设是给 AI 穿戏服戏服可以随时换、随时忘。边界是给 AI 画牢房牢房的墙是结构性的每次调用都在。判断标准很简单删掉这句话系统行为会不会出现结构性变化会就是边界不会大概率是装饰。Agent层面的Harness管的是所有任务通用的稳定性和安全性。它不关心你具体在修Bug还是写API它只管心跳别停权限别越上下文别爆出错别死中断有交代失败有熔断做和验分家隔离防污染所以Agent本身就是全局结构的Harness设置。系统可靠的秘诀不在模型会不会说而在它出了岔子以后谁来收拾残局。这个收拾残局的结构就是Agent内嵌的Harness。Agent是在为模型进行全局工程化设计Skill是在为模型执行任务层的规范化工程设计。也就是说agent需要harness工程思维skill也需要harness工程思维。相当于人在规划层上需要工程思维在执行层也需要工程思维。04 Skill 是任务层次的 Harness 设置光有全局还不够。大楼安全不代表你在楼里干什么都安全。修Bug可能改错文件部署可能推错分支写API可能动到不该动的配置。全局Harness不知道你具体在干什么它只能管通用安全管不了任务级别的细节。所以需要Skill。Skill就是给某个具体任务专门定一套规矩能动什么不能动什么先做什么后做什么做错了怎么收场做到什么程度算完成这套规矩的设计思路和Agent全局Harness完全一样有边界、有流程、有状态检查、有熔断、有恢复、有验证。只不过全局管所有任务Skill管一个任务。Skills管一群任务Skill就是任务层次的Harness设置。05 全局 Harness 的思想完全适用于 Skill 设计这是最核心的一点。Agent全局Harness里总结出来的每一条原则在设计Skill时我全部都用上了。心跳循环的思想Agent有心跳循环维持持续运转。Skill也有自己的“小循环”执行步骤、检查结果、失败重试、熔断退出。宏观循环维持系统不挂微观循环保证任务能继续。注我在Skill设计中会做降级处理。如果循环指定次数还是有问题就进行降级操作或者直接跳过最终记录并与用户说明情况原因。权限边界的思想Agent有权限系统把“会做”和“可以做”分开。Skill也要明确边界能动什么工具、不能动什么命令、动哪些文件、不动哪些文件。能力越强约束越细。注我在设计Skill的时候都会加红绿灯。红灯就是明确不能做的事情绿灯就是可以执行的事情。这是规范骨架中的约束。中断处理的思想Agent在中断时会补齐执行记录保证账本闭环。Skill也一样启动时先做状态检查判断当前做到哪一步了从断点继续不默认自己从零开始。关键步骤之间主动抛出进度状态让用户知道现在在哪、哪些已完成、哪些待执行。注我在Skill的设计中会增加遇到问题时向用户咨询并确认的路径设置。上下文治理的思想Agent把记忆分成规矩、索引、正文、进度四层入口文件必须短。Skill也一样。Skill文件本身要短只写流程和约束不堆示例代码。流程细节和示例代码放在独立文件里让Skill按需去读。规矩放CLAUDE.md细节放Skill文件对应的明细记录放独立文件索引放MEMORY.md四样东西各司其职。注Skill的渐进披露读取外面是汇总层包括SKILL.md、resource文件夹、script文件夹、template文件夹等。明细层就是resource文件夹里对Skill的规则明细。Skill在设计编排时工作流骨架会明确设计需要什么就去对应的明细中查找规则。最后选择AI大模型就是选择未来最近两年大家都可以看到AI的发展有多快时代在瞬息万变我们又为何不给自己多一个选择多一个出路多一个可能呢与其在传统行业里停滞不前不如尝试一下新兴行业而AI大模型恰恰是这两年的大风口人才需求急为紧迫人工智能时代最缺的是什么就是能动手解决问题还会动脑创新的技术牛人智泊AI为了让学员毕业后快速成为抢手的AI人才直接把课程升级到了V6.0版本‌。这个课程就像搭积木一样既有机器学习、深度学习这些基本功教学又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能把AI技术从基础到前沿全部都包圆了课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌课程还教大家怎么和AI搭档一起工作就像程序员带着智能助手写代码、优化方案效率直接翻倍‌这么练出来的学员确实吃香83%的应届生都进了大厂搞研发平均工资比同行高出四成多‌。智泊AI还特别注重培养人无我有的能力比如需求分析、创新设计这些AI暂时替代不了的核心竞争力让学员在AI时代站稳脚跟‌。课程优势一人才库优秀学员参与真实商业项目实训课程优势二与大厂深入合作共建大模型课程课程优势三海外高校学历提升课程优势四热门岗位全覆盖匹配企业岗位需求如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益·应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。·零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。·业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。重磅消息人工智能V6.0升级两大班型AI大模型全栈班、AI大模型算法班为学生提供更多选择。由于文章篇幅有限在这里我就不一一向大家展示了学习AI大模型是一项系统工程需要时间和持续的努力。但随着技术的发展和在线资源的丰富零基础的小白也有很好的机会逐步学习和掌握。【最新最全版】AI大模型全套学习籽料可无偿送LLM面试题AI大模型学习路线大模型PDF书籍640套AI大模型报告等等从入门到进阶再到精通超全面存下吧获取方式有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】来智泊AI高起点就业培养企业刚需人才扫码咨询 抢免费试学⬇⬇⬇AI大模型学习之路道阻且长但只要你坚持下去就一定会有收获。

相关新闻

Burpsuite爆破绕过验证码插件安装与实战

Burpsuite爆破绕过验证码插件安装与实战

声明 本文发布的工具和脚本,仅用作测试和学习研究,禁止用于商业用途,不能保证其合法性,准确性,完整性和有效性,请根据情况自行判断。文中所涉及的技术、思路及工具等相关知识仅供研究安全技术为目的的学习使…

2026/6/30 5:43:23阅读更多 →
ChatGPT语音交互冷启动难题破解:首帧响应<800ms的4步极简优化法(含VAD灵敏度黄金阈值、LLM streaming token buffer size计算公式、GPU显存占用压缩技巧)

ChatGPT语音交互冷启动难题破解:首帧响应<800ms的4步极简优化法(含VAD灵敏度黄金阈值、LLM streaming token buffer size计算公式、GPU显存占用压缩技巧)

更多请点击: https://codechina.net 第一章:ChatGPT语音交互冷启动难题的本质剖析 语音交互系统在首次部署时往往面临“冷启动”困境——模型缺乏用户个性化语音数据、上下文习惯与纠错反馈,导致识别率低、响应僵硬、意图理解偏差显著。这一…

2026/6/30 5:43:22阅读更多 →
二、详解 MySQL 索引结构

二、详解 MySQL 索引结构

为什么 MySQL 选择 B 树?聚簇索引和二级索引到底有什么区别?回表、覆盖索引、索引下推又是怎么回事?本文将从底层数据结构出发,彻底讲透 MySQL 索引的每一个关键概念。 一、前言 数据库查询是后端开发中最频繁的操作之一。当表中…

2026/6/30 5:43:22阅读更多 →
前端开发基础面试-css

前端开发基础面试-css

一、 盒模型(必考送分题)面试官问: “说一说你对盒模型的理解,box-sizing 有什么用?”标准盒模型(W3C):width 内容宽度(content)。padding 和 border 会向外…

2026/6/30 6:53:28阅读更多 →
电动火箭E-Rocket的推力矢量控制与航电系统设计

电动火箭E-Rocket的推力矢量控制与航电系统设计

1. 低成本电动火箭E-Rocket的设计理念在航天技术领域,推力矢量控制(TVC)一直是实现飞行器精准操控的核心技术。传统液体燃料火箭虽然推力强大,但其复杂的燃料系统和高温燃气舵面机构使得TVC系统成本高昂且维护困难。我们团队开发的E-Rocket电动火箭平台&…

2026/6/30 6:53:28阅读更多 →
TestDisk终极指南:5步快速找回丢失分区,免费恢复宝贵数据

TestDisk终极指南:5步快速找回丢失分区,免费恢复宝贵数据

TestDisk终极指南:5步快速找回丢失分区,免费恢复宝贵数据 【免费下载链接】testdisk TestDisk & PhotoRec 项目地址: https://gitcode.com/gh_mirrors/te/testdisk 你是否曾经遇到过硬盘分区突然消失的绝望时刻?重要的工作文档、珍…

2026/6/30 6:53:28阅读更多 →
免费开源的终极卡拉OK游戏:5分钟带你玩转UltraStar Deluxe

免费开源的终极卡拉OK游戏:5分钟带你玩转UltraStar Deluxe

免费开源的终极卡拉OK游戏:5分钟带你玩转UltraStar Deluxe 【免费下载链接】USDX The free and open source karaoke singing game UltraStar Deluxe, inspired by Sony SingStar™ 项目地址: https://gitcode.com/gh_mirrors/us/USDX 你是否梦想拥有一个私人…

2026/6/30 6:53:28阅读更多 →
SubtitleEdit语音转文字实战配置与优化指南

SubtitleEdit语音转文字实战配置与优化指南

SubtitleEdit语音转文字实战配置与优化指南 【免费下载链接】subtitleedit the subtitle editor :) 项目地址: https://gitcode.com/gh_mirrors/su/subtitleedit SubtitleEdit作为一款功能强大的开源字幕编辑工具,其语音转文字功能凭借多引擎支持和智能后处理…

2026/6/30 6:53:28阅读更多 →
专业geo搜索优化公司怎么选?一文理清核心要点

专业geo搜索优化公司怎么选?一文理清核心要点

很多用户在寻找专业geo搜索优化公司时,常会面临信息繁杂、难以甄别资质的问题,本文将从多个维度梳理选择思路,帮助用户明确需求。 随着生成式AI搜索引擎的普及,企业需要通过针对性的优化手段,让自身信息出现在主流AI搜…

2026/6/30 6:48:28阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 4:03:30阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/30 4:36:27阅读更多 →
为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南 【免费下载链接】Destiny-2-Solo-Enabler Repo containing the C# and XAML code for the D2SE program. Included is also the dependency for the program, and image asset. 项目地址: https://gitcode…

2026/6/30 0:02:58阅读更多 →
第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

1. PowerPoint 2010基础操作全攻略 刚接触PowerPoint 2010时,很多人会被它复杂的界面吓到。其实只要掌握几个核心区域,就能快速上手。我最开始用PPT时,经常找不到功能按钮在哪,后来发现主要操作都集中在顶部功能区。 工作窗口主要…

2026/6/30 0:02:58阅读更多 →
XGBoost超参数实战:从理论到调优策略

XGBoost超参数实战:从理论到调优策略

1. XGBoost超参数基础认知 第一次接触XGBoost时,我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果,但按错了就可能坠机。经过多年实战,我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:59阅读更多 →