长时间运行应用开发的 Harness 设计
长时间运行应用开发的 Harness 设计作者:Prithvi Rajasekaran(Anthropic Labs)发布日期:2026年3月24日来源:Anthropic Engineering BlogHarness 设计是 Agent 编程前沿性能的关键。本文展示了我们如何在前端设计和长时间自主软件工程中进一步推动 Claude 的能力边界。在过去几个月里,我一直致力于两个相互关联的问题:让 Claude 产出高质量的前端设计,以及让它在没有人类干预的情况下构建完整的应用程序。这项工作源于我们早期的前端设计技能和长时间运行编程 Agent harness,在这些工作中,我和同事们通过提示工程和 harness 设计将 Claude 的表现提升到了远超基线的水平——但两者最终都遇到了瓶颈。为了突破瓶颈,我寻找了能够在两个截然不同的领域(一个由主观品味定义,另一个由可验证的正确性和可用性定义)中都适用的 AI 工程方法。受到**生成对抗网络(GAN)**的启发,我设计了一个包含生成器和评估器 Agent 的多 Agent 结构。构建一个能够可靠地——并带有品味地——评分的评估器,意味着首先要制定一套能够将"这个设计好吗?"这类主观判断转化为具体、可评分术语的标准。然后,我将这些技术应用于长时间自主编程,借鉴了我们早期 harness 工作的两个经验:将构建分解为可处理的小块,以及使用结构化工件在会话之间传递上下文。最终结果是一个三 Agent 架构——规划器、生成器和评估器——在数小时的自主编程会话中产出了丰富的全栈应用程序。为什么简单实现不够用我们之前已经表明,harness 设计对长时间运行的 Agent 编程效果有重大影响。在早期实验中,我们使用初始化 Agent 将产品规格分解为任务列表,编程 Agent 逐个实现功能,然后在会话之间传递工件来携带上下文。更广泛的开发者社区也形成了类似的见解,例如"Ralph Wiggum"方法使用 hooks 或脚本让 Agent 保持持续迭代循环。但一些问题仍然持续存在。对于更复杂的任务,Agent 仍然会随着时间推移而偏离轨道。在分解这个问题时,我们观察到 Agent 执行这类任务时的两种常见失败模式。首先,模型在长时间任务中随着上下文窗口填满而倾向于失去连贯性。一些模型还表现出**“上下文焦虑”**——它们在接近自己认为的上下文限制时开始过早地结束工作。上下文重置——完全清除上下文窗口并启动一个新的 Agent,结合携带前一个 Agent 状态和下一步的结构化交接——可以解决这两个问题。这与压缩不同,压缩是将对话的早期部分原地总结,以便同一个 Agent 可以在缩短的历史记录上继续工作。虽然压缩保持了连续性,但它没有给 Agent 一个干净的状态,这意味着上下文焦虑仍然可能持续。重置提供了一个干净的状态,代价是交接工件需要有足够的状态让下一个 Agent 干净地接手工作。在我们早期的测试中,我们发现 Claude Sonnet 4.5 的上下文焦虑非常强烈,仅靠压缩不足以实现强大的长任务性能,因此上下文重置成为 harness 设计的关键。第二个问题,我们之前没有讨论过,是自我评估。当被要求评估自己产出的工作时,Agent 倾向于自信地赞美工作——即使对人类观察者来说质量明显平庸。这个问题在设计等主观任务上尤其明显,因为没有等同于可验证软件测试的二元检查。然而,即使在有可验证结果的任务上,Agent 有时也会表现出影响其完成任务表现的糟糕判断。将执行工作的 Agent 与评判工作的 Agent 分开是解决这个问题的有力手段。这种分离本身并不能立即消除那种宽容;评估器仍然是一个倾向于对 LLM 生成输出慷慨的 LLM。但将独立的评估器调校为持怀疑态度,远比让生成器对自己的工作持批判态度要容易得多,而且一旦外部反馈存在,生成器就有了具体的东西来迭代改进。前端设计:让主观质量可评分我从前端设计开始实验,这是自我评估问题最明显的领域。在没有任何干预的情况下,Claude 通常会倾向于安全、可预测的布局,技术上可用但视觉上平淡无奇。两个洞见塑造了我为前端设计构建的 harness。首先,虽然美学不能完全简化为分数——个人品味总是会有所不同——但可以通过编码设计原则和偏好的评分标准来改进。"这个设计美吗?"很难一致地回答,但"这个设计遵循我们的好设计原则吗?"给了 Claude 具体的东西来评分。其次,通过将前端生成与前端评分分离,

相关新闻

当校园霸凌发生在监控盲区:一枚求救器如何重构青少年安全防线的完整证据链

当校园霸凌发生在监控盲区:一枚求救器如何重构青少年安全防线的完整证据链

中学阶段75%的霸凌事件发生在监控盲区,79%未被上报。这四个字的背后,是”发现难、求救难、干预难、取证难”的系统性困境。传统的解决方案——加强监控、心理教育、事后调查——都无法解决一个核心问题:当霸凌发生在厕所、宿舍角落、放学路上…

2026/6/28 1:28:09阅读更多 →
codex秒生成的小游戏--贪吃蛇

codex秒生成的小游戏--贪吃蛇

<!DOCTYPE html> <html lang"zh-CN"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>贪吃蛇</title> <style>*, *::be…

2026/6/28 1:28:09阅读更多 →
时空态势立体感知 零断点接力追踪驱动安防全域智变技术白皮书

时空态势立体感知 零断点接力追踪驱动安防全域智变技术白皮书

时空态势立体感知 零断点接力追踪驱动安防全域智变技术白皮书编制单位&#xff1a;镜像视界浙江科技有限公司核心定位&#xff1a;基于SpaceOS全域空间计算底座、八大自研引擎&#xff0c;以时空态势立体感知、零断点跨镜接力追踪为核心的安防全域智能化升级体系1. 前言时空态势…

2026/6/28 1:28:09阅读更多 →
现代 NLP 的位置编码范式

现代 NLP 的位置编码范式

上一篇我们回到 Swin 补上了它的二维 RPE 方案&#xff0c;用紧凑偏置表实现了高效的二维相对位置编码。 至此&#xff0c;从 Shaw 的加法型、Transformer-XL 的四项重构式、再到 T5 的偏置型&#xff0c;Swin 的二维扩展&#xff0c;每种方案都在尝试不同的方法来实现 RPE。 …

2026/6/28 3:08:16阅读更多 →
为什么本地优先的 AI 工作流,更适合个人开发者和小团队

为什么本地优先的 AI 工作流,更适合个人开发者和小团队

为什么本地优先的 AI 工作流&#xff0c;更适合个人开发者和小团队 很多人已经在日常工作里接入了 AI&#xff1a;写代码用一个工具&#xff0c;查资料用一个工具&#xff0c;自动发消息再接一个机器人&#xff0c;定时提醒又是另一个平台。表面看起来“全都能用”&#xff0c;…

2026/6/28 3:08:16阅读更多 →
AI时代程序员迎来隐性薪资变局:Token资源两极分化,部分从业者自行承担算力成本。

AI时代程序员迎来隐性薪资变局:Token资源两极分化,部分从业者自行承担算力成本。

人工智能迭代重塑了软件开发行业的作业模式&#xff0c;生产力效率迎来跨越式提升。繁荣业态之下&#xff0c;程序员圈层逐步显现两极分化的现状。 头部大厂团队坐拥充沛的年度Token算力配额&#xff0c;部分岗位甚至需要消耗足量额度完成年度考核指标&#xff1b;反观中小规模…

2026/6/28 3:08:16阅读更多 →
数据结构与算法(一):栈与队列的Python实现

数据结构与算法(一):栈与队列的Python实现

一、引言 数据结构是计算机科学的基石,它就像建筑中的钢筋骨架,决定了程序的效率与可维护性。在众多数据结构中,栈(Stack)和队列(Queue)是最基础、最常用的两种线性结构。它们虽然简单,却在操作系统、编译原理、网络协议、算法设计等各个领域扮演着不可或缺的角色。 …

2026/6/28 3:08:16阅读更多 →
中小型培训机构数字化工具推荐|一站式解决教务、财务、家校难题

中小型培训机构数字化工具推荐|一站式解决教务、财务、家校难题

教培行业经过多年规范化调整&#xff0c;单校区、多连锁艺术、文化课、素质类培训机构&#xff0c;普遍面临手工登记效率低、家校同步不及时、财务对账耗时长、学员流失难预警、多校区数据割裂等运营难题。多数通用管理软件功能拆分售卖&#xff0c;插件叠加后成本翻倍&#xf…

2026/6/28 3:08:16阅读更多 →
“原型谬误”:语法正确与语义正确的混淆

“原型谬误”:语法正确与语义正确的混淆

为什么“AI 精神病”极易在公司高管层蔓延&#xff0c;而一线的技术负责人对此则表现的相当警惕&#xff1f;因为决策者混淆了“原型”与“生产系统”的边界。 非技术背景的决策者在评估 AI 能力时&#xff0c;通常是在完全受控的方式下进行的。比如 AI 在几秒钟内生成一个可运…

2026/6/28 3:03:15阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月&#xff0c;Boris Cherny 公开宣布自己卸载了 IDE。一时间&#xff0c;Vibe Coding 成了全行业最热的话题。6个月后&#xff0c;当我们回过头来拉一份真实账本&#xff0c;发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言&#xff1a;审计结束三个月了&#xff0c;审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间&#xff0c;内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中&#xff0c;审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月&#xff0c;Boris Cherny 公开宣布自己卸载了 IDE。一时间&#xff0c;Vibe Coding 成了全行业最热的话题。6个月后&#xff0c;当我们回过头来拉一份真实账本&#xff0c;发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言&#xff1a;审计结束三个月了&#xff0c;审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间&#xff0c;内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中&#xff0c;审计…

2026/6/28 0:08:01阅读更多 →