突破性构建:Kiro和Claude交付了我要求的东西但不是我想要的
在Agentis Lux上的部署成功。绿色检查没有错误现场直播。我扫描了我自己的网站抓取了一张“之前”的照片进行前后对比扫描仪给出了62分。它还给下一个站点62。还有下一个。同样的分数同样的发现每次都一样包括在一个没有结账按钮的网站上发现一个“结账按钮”。构建成功了。它运行的是我几周前写好并放弃的扫描仪版本。从那时起我构建的所有东西都被搁置在回购协议中被合并被测试没有被部署。部署管道仅在5月份运行了一次再也没有运行过。我从来没有注意到因此这个实时网站是一个自信的、经过良好测试的、完全绿色的存根。技术上没有出错。这是我一直在思考的部分...结束了...结束了。小心空隙我和人工智能代理一起建造。我导演他们创作。一个代理编写基础结构另一个审计它我打电话和合并。又快又好失败模式也不是我预想的那样。我预料代理人会犯错误。他们大多不会。相反当我要求的不是我想要的时他们所做的是正确地构建我所要求的。错误不在代码中。bug存在于我的指令和我的意图之间代理用字面上最真实的东西来填充这个间隙。这个东西上下文工程出现在Anthropic的演讲中AWS峰会.在这种情况下是人类管弦乐队...我会反击。“你说部署但管道从5月起就没有运行过你的意思是重新部署当前代码吗”代理说“部署成功”是因为部署确实成功了。它回答了我提出的问题。我问了一个明显在我盲点上的错误问题。大约一周内我在一个项目中碰到过四次这种情况。每次都是一样的形状。四次它是正确的和错误的发货的存根。每一个网站都有62个回复土拨鼠日得分。基础设施是真实的测试是绿色的部署是有效的。它只是部署了我留下的代码。“部署好了吗”是真的。“我构建的东西部署了吗”是我忘记问的问题。【教训:不要假设。]三扇门其中一扇是真的。我的扫描器接受三种输入:URL、代码报告、API规范。界面为他们显示了三个选项卡。干净明显正是设计所暗示的。只有网址一是有线的。另外两个是根据我给出的规范构建的它描述了三个选项卡后来我决定首先只提供URL扫描不再更新界面来匹配。因此一个访问者点击“API spec”输入一些东西然后点击一面礼貌的墙。标签是正确的。我的瞄准镜已经移动了标签还没听说。【教训:Kiro和Claude读不懂我的心思]这些发现只有工程师才能读懂。我的所有观众都是用人工智能构建的人他们可能不知道ul是。扫描仪的发现说了类似“没有用ul或ol包装的重复兄弟元素”的事情。这是一个正确的发现。对我为之打造工具的人来说也是没用的。我要求的是准确的、技术性的、真实的发现。我拿到了。我忘了问“我的实际用户能读这个吗”[经验:不要忘记你是在为最终用户构建一个真实的人而不是一个理论上的人。]这张牌什么也没变。一个社会卡路线建立部署工作。我保存了图像得到了一个零字节的文件。该路径从网络上获取了三种字体当其中一种返回时是空的而不是彻底失败图像渲染器得到了垃圾什么也没有产生。本来应该处理字体错误的catch块没有被触发因为fetch没有失败。它空手“成功”了。错误处理对于它所监视的错误是正确的。真正的失败者从一扇没人看着的门走进来。[教训:不要跳过测试实时工作流。]模式每一个都通过了自己的测试。该部署已部署。标签符合规格。这些发现是准确的。卡路线跑了。如果我相信“它能工作”这四个都可以发货了。抓住他们的不是更好的提示也不是更聪明的代理人。我看着实际的输出问了一个比代理能问的更简单的问题。不是它跑了吗“这是我想要的东西吗”www.jpbara.com如果你费心扫描第二个站点每个站点上的62都是可疑的。三个标签是一个陷阱如果你点击那些你没有完成的。如果你是作为你自己的用户而不是作为编写它的工程师来阅读它那么一个发现是没有用的。代理针对您所说的内容进行优化。人在回路中的全部工作就是不断地检查你所说的和你所想的因为代理人看不到区别而你是唯一能看到的人。为什么我一直在做这读起来好像我还没有学到我一直在写的东西。那么是还是不是代理人在几天内做了几周的实际工作。审计代理发现了测试遗漏的真正错误。基础设施是牢固的。我不会还回去的。但是这个模型是“我导演他们制作”而不是“他们制作我观看”是有原因的方向不是一次性的指令。这是一种持续的行为将工作与意图对立起来并说“接近了但不是这样。”代理人是非凡的“正是你要求的。”知道该问什么并注意到答案在技术上是完美的但却是错误的这仍然是我的一部分。部署成功。不是我想象中的部署。现在我知道要多看两眼。这四个都来自building Agentis Lux一个代理就绪扫描仪。是的一个告诉其他人代理不能读取的工具发送了一个存根隐藏了一个损坏的标签并呈现了一个空卡。如果你想看我不停地抓我自己这是公开的

相关新闻

3大核心优势:FUXA告警脚本执行功能深度解析

3大核心优势:FUXA告警脚本执行功能深度解析

3大核心优势:FUXA告警脚本执行功能深度解析 【免费下载链接】FUXA Web-based Process Visualization (SCADA/HMI/Dashboard) software 项目地址: https://gitcode.com/gh_mirrors/fu/FUXA FUXA作为一款开源的Web-based Process Visualization(SCA…

2026/6/21 6:31:16阅读更多 →
TQVaultAE:如何让泰坦之旅的装备管理变得轻松高效?

TQVaultAE:如何让泰坦之旅的装备管理变得轻松高效?

TQVaultAE:如何让泰坦之旅的装备管理变得轻松高效? 【免费下载链接】TQVaultAE Extra bank space for Titan Quest Anniversary Edition 项目地址: https://gitcode.com/gh_mirrors/tq/TQVaultAE 想象一下这样的场景:你在《泰坦之旅周…

2026/6/21 6:26:16阅读更多 →
GLM-OCR部署实战:从文档语义解析到高可用IDP服务

GLM-OCR部署实战:从文档语义解析到高可用IDP服务

1. GLM-OCR 是什么?它解决的不是“识别文字”而是“理解文档结构”的真问题GLM-OCR 这个名字里带“OCR”,但如果你把它当成传统扫描件转文字的工具,那从第一步就走偏了。我去年在给一家票据处理公司做自动化方案时踩过这个坑——他们原以为换…

2026/6/21 6:26:16阅读更多 →
零代码AI编程实战:用通义灵码、Qoder与Junie生成AQI查询工具

零代码AI编程实战:用通义灵码、Qoder与Junie生成AQI查询工具

1. 这不是写代码,是“指挥AI工程师”——零代码AI编程的真实起点“零代码AI编程”这个词刚冒出来时,我盯着它看了三分钟。不是因为兴奋,而是怀疑:真能不写一行print("Hello"),就让AI把一个带UI、有逻辑、能跑…

2026/6/21 8:01:38阅读更多 →
Claude Code 成本优化:DeepSeek V4 中转网关实战指南

Claude Code 成本优化:DeepSeek V4 中转网关实战指南

1. 这不是“换模型”而是重构成本结构:Claude Code 的 Token 经济学真相你看到标题里那个从 $26 降到 $2 的数字,第一反应可能是“又一个营销噱头”。但如果你真在用 Claude Code 做日常开发——尤其是写中大型后端服务、做全栈代码生成、或者跑自动化测…

2026/6/21 8:01:38阅读更多 →
Python3+RIDE+RobotFramework自动化测试框架搭建与实战指南

Python3+RIDE+RobotFramework自动化测试框架搭建与实战指南

1. 项目概述:为什么选择Python3RIDERobotFramework这套组合?如果你是一名测试工程师,或者正在从功能测试转向自动化测试,那么“搭建一个属于自己的自动化测试框架”几乎是绕不开的课题。市面上工具和框架五花八门,从原…

2026/6/21 8:01:38阅读更多 →
APP逆向分析工具V4.5:集成化瑞士军刀,提升移动安全研究效率

APP逆向分析工具V4.5:集成化瑞士军刀,提升移动安全研究效率

1. 项目概述:为什么我们需要一个“瑞士军刀”式的逆向分析工具?在移动应用安全研究、漏洞挖掘、甚至是产品竞品分析的过程中,逆向工程是绕不开的核心技能。十年前,我们可能还在用几个零散的脚本和命令行工具,在IDA Pro…

2026/6/21 8:01:38阅读更多 →
Playwright+Asyncio构建高性能爬虫:破解携程等动态网站数据抓取

Playwright+Asyncio构建高性能爬虫:破解携程等动态网站数据抓取

1. 项目概述与核心价值 最近在做一个数据聚合分析的项目,需要抓取携程上大量的旅游产品信息,包括酒店、机票、景点门票的价格、库存和用户评论。一开始用传统的 requests BeautifulSoup ,很快就撞上了南墙——页面大量动态渲染&#xff…

2026/6/21 8:01:38阅读更多 →
Qwen3.5蒸馏18B部署实战:GGUF格式、硬件适配与推理优化

Qwen3.5蒸馏18B部署实战:GGUF格式、硬件适配与推理优化

1. 项目概述:Qwen 3.5蒸馏18B版本不是“小模型”,而是工程权衡的产物你看到“Qwen 3.5蒸馏18B”这个标题,第一反应可能是:“哦,又一个轻量版Qwen,能跑在24G显存卡上吧?”——这种理解方向错了。…

2026/6/21 7:56:38阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/21 0:00:40阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/21 0:00:40阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/21 0:00:40阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/21 0:00:40阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/21 0:00:40阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/21 0:00:40阅读更多 →