我写了 200 行 CLAUDE.md,Claude 全忽略了——Karpathy 只用了四条
Karpathy 发现了什么四种系统性失败不是偶发 Bug很多人以为 Claude Code 出问题是随机的——有时候听话有时候不听话具体看运气。Karpathy 的观察否定了这个判断。他说这些失败是系统性的每次出现都来自同一批根因。四种失败模式逐一拆解。第一种静默假设Silent Assumptions你说「帮我优化这个接口的性能」Claude 默默选了一种解法也许是加缓存也许是改索引策略。它没告诉你它的假设没问你当前的瓶颈在哪里就开始写。等代码出来你才发现——它优化的方向完全不对你们生产环境的瓶颈根本不在那里。这不是 Claude 笨这是它的训练目标之一就是「尽快给出答案」。在对话场景里这是优点在写代码这件事上是隐患。第二种代码过度生长Hypertrophy让它写一个简单的文件解析器它给你来了一个带错误重试机制、支持多种编码格式、可以通过配置扩展的「企业级」版本。你没要这些但它默认「加了更多等于更好」。生产环境里最难维护的代码往往不是逻辑复杂的那种而是超出实际需求的那种——它的复杂度无法通过测试覆盖无法通过代码审查发现只有等到维护的时候才会爆。第三种附带修改Collateral Changes这是最让工程师头疼的一种。让它修一个 Bug它在修 Bug 的同时顺手把旁边的函数重构了把一个变量名「改得更规范了」把一段死代码删了。每一个改动单独看都「有道理」组合在一起就是一个很难 review 的 PR和你以为的「只改了一行」相差甚远。第四种无验证完成Unverified Completion「我已经修好了」。但它有没有跑测试有没有检查边界条件有没有验证和现有代码的兼容性很多时候没有。它在完成一件你没有定义「完成标准」的任务。这四个问题组合起来就是工程师们普遍感受到的「AI 写的代码需要大量 review 才能用」——不是因为代码本身有语法错误而是因为它做了你没要求的事、没做你真正需要验证的事。图四种失败模式与四条规则的对应关系四条规则的原文和拆解Forrest Chang 的 CLAUDE.md 文件里对应这四种失败写了四条规则。我把原文引用出来逐条拆解它为什么这样写。规则一Think Before Coding编码前先思考State your assumptions explicitly. If uncertain, ask. Surface confusion and tradeoffs rather than proceeding silently.针对静默假设。核心动作是把「隐藏的前提」显式化——在开始写代码之前先说出你基于什么前提如果有多种解读先列出来有不确定的地方先问。这条规则改变的不是 Claude 的能力而是它的行为模式——从「默认执行」改为「先对齐再执行」。对于一个做过大型项目的工程师来说这和我们开需求评审会的逻辑是一样的不是说你不懂技术而是「对齐理解」这件事本身有价值。规则二Simplicity First简单优先Minimum code that solves the problem. Nothing speculative. No unrequested abstractions, no speculative features.针对代码过度生长。关键词是「minimum」和「nothing speculative」——不写猜测性的功能不搭用不到的抽象层。这条规则反直觉的地方在于它不是说写简单的代码而是说「只写解决当前问题的代码」。用不到的抽象不是准备是负债。我见过太多「以后可能用到」的 interface最后一次都没被调用过但维护新人要花半小时理解它为什么存在。规则三Surgical Changes精确手术式修改Touch only what you must. Clean up only your own mess. When editing code, restrict modifications to whats required and match existing style.针对附带修改。「touch only what you must」这句话很有力度——你碰到的每一行代码都是修改范围不是你要修改的就不要碰。「clean up only your own mess」更直接不要去整理别人的代码即使你觉得它不够优雅。我用一个架构评审会的场景来类比你来解决一个性能问题不是来重构整个模块的。即使你顺手发现了三个可以优化的地方正确做法也是记下来另开 ticket而不是一个 PR 塞进去。理由很简单——review 不了出了问题不知道是哪行改的。规则四Goal-Driven Execution目标驱动执行Define success criteria. Loop until verified. Transform imperative instructions into declarative goals with verification steps.针对无验证完成。不说「做这件事」说「做这件事完成的标准是 X做完之后验证 Y」。给成功标准给验证步骤而不只是给任务描述。Karpathy 在 X 上对这条的解释最直白「LLMs 特别擅长循环直到满足条件为止。不要告诉它做什么给它成功标准看着它自己搞定。」这四条规则每一条都指向一个具体的失败模式没有一条是泛泛的「写好代码」。这不是风格指南这是故障修复手册。为什么 15 万人 star 了这个文件社区对这个文件的反应出乎意料的好。我梳理了一下原因有几个层面。数据层面在 30 个代码库上的社区测试显示没有 CLAUDE.md 的错误率约为 41%用了这四条规则之后降到 11%合规率约 78%。这不是一个学术 benchmark是 X 上一个叫 Mnilax 的开发者做的开放实验被 Dickie Bush 等人转发后广泛流传。数字有争议但方向没有争议少量精准的规则比零规则有效得多。工程直觉层面四条规则每一条都能让工程师产生「对就是这个问题」的共鸣。这不是 AI 优化技巧这是 Code Review 里每周都在念叨的东西——只不过以前是对人说的现在要对 AI 说。极简层面70 行人类可读几秒钟扫一遍。「最好的 CLAUDE.md 随着时间推移会越来越短——你删掉那些事实上用不着的规则。」这句话本身就是一种设计哲学的体现。你的 CLAUDE.md 为什么越写越烂这才是我最想聊的部分。「规则越多越好」是一个直觉上正确、逻辑上错误的判断。表面上看每次 Claude 出问题你加一条规则下次不就不出这个问题了实际上不是这么工作的。上下文窗口的稀释效应Claude 处理 CLAUDE.md 的方式不是「逐条检查是否违规」而是在生成响应时把规则文件作为上下文权重的一部分。当你的规则文件有 200 行每一条规则分配到的注意力权重就低了一大半。2025 年 Jaroslawicz 等人的研究给出了一个残酷结论「指令数量翻倍合规率减半。」更直接的数据即使是最好的模型在 Agent 场景里完美遵守所有指令的任务不超过 30%。你有 200 条规则Claude 有效遵守其中 60 条而且不是固定的那 60 条。防御性写法的副作用大多数工程师写 CLAUDE.md 的模式是这样的发现 Claude 做了 X → 加一条「不要做 X」。这是响应式的、防御性的写法。问题在于你不可能穷举所有的 X而且「不要做 X」「不要做 Y」「不要做 Z」堆在一起Claude 要在这个「禁令列表」里工作认知负担很高反而可能导致它在「有没有违反某条禁令」这件事上花太多注意力而不是在「把这个任务做好」这件事上。和 Karpathy 四条规则的本质区别Karpathy 的四条规则不是禁令清单是行为框架。它们定义的不是「不准做什么」而是「决策时的优先次序和工作方式」。「Think before coding」不是「不准瞎写」是「先对齐再执行」。「Simplicity first」不是「不准写复杂代码」是「默认选最简解法」。「Surgical changes」不是「不准动其他代码」是「你的范围只有这里」。「Goal-driven execution」不是「必须写测试」是「定义验证标准跑到标准满足为止」。框架和禁令的区别在于框架提供的是判断依据禁令提供的是行为约束。判断依据让 Claude 在遇到新情况时知道怎么选禁令只能管你已经见过的情况。用架构的语言说禁令是 blacklist框架是 principle。principle 的复用性远高于 blacklist。

相关新闻

TPA2028D1评估模块深度解析:从Class-D功放原理到硬件设计实践

TPA2028D1评估模块深度解析:从Class-D功放原理到硬件设计实践

1. 项目概述与核心价值如果你正在为便携式设备寻找一个既能提供足够音量、又能保护娇贵的微型扬声器、同时还能通过数字接口灵活控制的音频功放方案,那么德州仪器(TI)的TPA2028D1及其评估模块(EVM)绝对值得你花时间深入…

2026/6/29 18:45:52阅读更多 →
从多引擎探测到优化闭环

从多引擎探测到优化闭环

传统 SEO 优化的是搜索引擎排名;GEO 优化的是 AI 大模型在回答用户问题时是否提及、如何评价你的品牌。正常用户与智能体的对话 VS GEO 监控:维度对话GEO 监控目标准确回答用户问题探测第三方模型的品牌曝光模型单一可控模型通义、DeepSeek、豆包、混元、…

2026/6/29 18:40:51阅读更多 →
影刀RPA新手教程:变量调试完全指南——怎么在日志里看变量的值、怎么用断点看变量

影刀RPA新手教程:变量调试完全指南——怎么在日志里看变量的值、怎么用断点看变量

影刀RPA新手教程:变量调试完全指南——怎么在日志里看变量的值、怎么用断点看变量 你好,我是林焱。 今天我们聊变量调试。 就是:怎么知道变量里的值是什么,怎么看变量的值在流程运行过程中是怎么变的。 变量调试就像查监控 用…

2026/6/29 18:40:51阅读更多 →
dxwrapper如何让你的经典游戏在Windows 10/11上重获新生?[特殊字符]

dxwrapper如何让你的经典游戏在Windows 10/11上重获新生?[特殊字符]

dxwrapper如何让你的经典游戏在Windows 10/11上重获新生?🎮 【免费下载链接】dxwrapper Fixes compatibility issues with older games running on Windows 10/11 by wrapping DirectX dlls. Also allows loading custom libraries with the file extens…

2026/6/29 19:56:14阅读更多 →
LinkLifeVerse OS:让数据价值留在县域

LinkLifeVerse OS:让数据价值留在县域

县域越数字化,为什么越难?过去十年,大量县域走"上平台、抢流量"的路——短期 GMV 冲高,长期却固化了一个极不利的结构:全国性平台掌握流量定价权与用户数据,抽佣 15%~30%,…

2026/6/29 19:56:14阅读更多 →
回流焊的种类及选型指南

回流焊的种类及选型指南

在SMT贴片加工中,回流焊是决定焊接品质的核心设备。面对市场上不同类型的回流焊设备,如何选择适合自己生产需求的产品,是许多SMT从业者关心的问题。本文系统介绍回流焊的主要种类及其选型要点。一、回流焊的主要种类根据加热方式的不同&#…

2026/6/29 19:56:14阅读更多 →
喜马拉雅VIP音频终极下载指南:用xmly-downloader-qt5永久保存付费内容

喜马拉雅VIP音频终极下载指南:用xmly-downloader-qt5永久保存付费内容

喜马拉雅VIP音频终极下载指南:用xmly-downloader-qt5永久保存付费内容 【免费下载链接】xmly-downloader-qt5 喜马拉雅FM专辑下载器. 支持VIP与付费专辑. 使用GoQt5编写(Not Qt Binding). 项目地址: https://gitcode.com/gh_mirrors/xm/xmly-downloader-qt5 …

2026/6/29 19:56:14阅读更多 →
ESP32S3 AP+MQTT Broker

ESP32S3 AP+MQTT Broker

ESP32S3 APMQTT Broker 文章目录ESP32S3 APMQTT BrokerESP32S3的作为Broker的代码ESP8266 设备1 发布端ESP8266 设备2订阅端ESP32S3的作为Broker的代码 需要安装 “PicoMQTT” #include <WiFi.h> #include <PicoMQTT.h>// AP热点配置 const char* AP_SSID &qu…

2026/6/29 19:56:14阅读更多 →
暗黑破坏神2存档编辑器:从游戏玩家到存档艺术家的蜕变之路

暗黑破坏神2存档编辑器:从游戏玩家到存档艺术家的蜕变之路

暗黑破坏神2存档编辑器&#xff1a;从游戏玩家到存档艺术家的蜕变之路 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 你是否曾经因为一次误操作丢失了辛苦培养的角色&#xff1f;或者想要尝试不同的角色Build却苦于重新练级的漫…

2026/6/29 19:51:10阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月&#xff0c;Boris Cherny 公开宣布自己卸载了 IDE。一时间&#xff0c;Vibe Coding 成了全行业最热的话题。6个月后&#xff0c;当我们回过头来拉一份真实账本&#xff0c;发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/29 3:27:55阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言&#xff1a;审计结束三个月了&#xff0c;审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间&#xff0c;内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中&#xff0c;审计…

2026/6/29 2:19:08阅读更多 →
如何在3秒内从普通图片生成专业级法线贴图:DeepBump的终极指南

如何在3秒内从普通图片生成专业级法线贴图:DeepBump的终极指南

如何在3秒内从普通图片生成专业级法线贴图&#xff1a;DeepBump的终极指南 【免费下载链接】DeepBump Normal & height maps generation from single pictures 项目地址: https://gitcode.com/gh_mirrors/de/DeepBump 还在为3D建模中的纹理制作而烦恼吗&#xff1f;…

2026/6/29 0:01:47阅读更多 →
OCAuxiliaryTools:终极OpenCore配置工具,让黑苹果安装从未如此简单!

OCAuxiliaryTools:终极OpenCore配置工具,让黑苹果安装从未如此简单!

OCAuxiliaryTools&#xff1a;终极OpenCore配置工具&#xff0c;让黑苹果安装从未如此简单&#xff01; 【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore&#xff08;OCAT&#xff09; 项目地址: https://gitcode.com/gh_mirrors/oc/OCA…

2026/6/29 0:01:47阅读更多 →
终极Windows 11精简指南:使用tiny11builder快速创建纯净系统镜像

终极Windows 11精简指南:使用tiny11builder快速创建纯净系统镜像

终极Windows 11精简指南&#xff1a;使用tiny11builder快速创建纯净系统镜像 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 你是否厌倦了Windows 11系统自带的20…

2026/6/29 0:01:47阅读更多 →