Agent 上了岗,然后呢?四个被忽视的问题与一种构建思路
Agent 上了岗然后呢四个被忽视的问题与一种构建思路一家金融科技公司最近在月度 AI 复盘会上发现了一笔糊涂账上线三个月的 Agent 集群账面消耗的 Token 是预算的 2.4 倍若按单位任务成本核算实际比预算高出近八倍。问题在于任务完成这个口径太粗——很多 Agent 表面交付了结果背后却经历了七八轮工具调用失败与上下文重写会后默默归档为已完成。这不是个别现象。2026 年 7 月初InfoQ 刊发了关于张江「Harness 时代的硅基团队治理」专场的深度报道作者王玮。报道汇集了一线实践者的现场判断Agent 进入企业生产流程后真正暴露的不是模型能力不足而是一整套围绕记忆、协作与责任的地基性缺口。本文想把这些问题拆开再把一种产品化的解决思路——Agent Skill Warehousemcp.smartmoves.com.cn——摆到对应的位置上。一、四个被忽视的问题第一个问题账单告诉你的是模型成本但真实成本藏在成功率里。一旦 Agent 进入长任务、多次工具调用、上下文反复重写Token 单价就失去了与有效产出的对应关系。一次跑通的任务和跑了八轮才成功的任务在账单上可能只差不到 20%但对资源的真实占用差了一个数量级。第二个问题智能体不只是会思考更是会记住。模型决定 Agent 当下能做什么记忆决定它能否在一次次任务中持续进化。但企业的记忆是分散的——数据库、知识库、会话系统、SOP、邮件、PDF、表格甚至音视频。当 Agent 试图综合调用时冲突检测、时间一致性、跨会话语义对齐就成了绕不开的工程问题。没有工程化的记忆基础设施Agent 越努力越容易把错误经验沉淀进组织流程。第三个问题个人 Agent 很强团队却不一定更强。同一个工具50 个工程师用可能变成 50 种用法——Prompt 不同、上下文组装方式不同、对完成的定义也不同。AI 天然具有反协作特性人与 AI 的对话高度个人化围坐写同一份需求的两个人拿到的产出可能完全不同。组织无法把个人提效自动转译成团队交付能力。第四个问题贡献、复用、责任三件事说不清。Agent 持续运转时经验沉淀速度远超传统文档体系。低质量经验、个人偏见、偶然成功的路径都可能被默默写入共享上下文。一旦进入组织集体记忆再想追溯来源几乎不可能。优秀的实践需要沉淀低质量的尝试需要隔离——这两件事同样紧迫但几乎没有企业同时在做。二、一种构建思路把经验封装成可治理的资产把这四个问题当作一份需求清单Agent Skill Warehousemcp.smartmoves.com.cn 的设计思路可以一一对应。它没有试图解决所有问题而是选择了其中一个支点把经验从 Prompt 里抽出来封装成可版本、可评测、可追溯的工程资产——Skill。对应第一个问题把任务成功率从账单口径里拽出来变成 Skill 的属性。每个 Skill 发布前要经过四层验证指令层、知识层、执行层、评测层评测层给出的通过率就是这个 Skill 的质量分数。账单背后的真实成本第一次有了可观测的对照系。对应第二个问题ASW 提供三类核心能力——记忆蒸馏、记忆计算、记忆堆叠。蒸馏把分散在文档、表格、音视频里的经验提炼为结构化记忆条目计算处理冲突、遗忘、合并、演进、时间一致性堆叠解决沉淀什么、隔离什么的治理问题。三层叠在一起让 Agent 拥有工程化管理的长期记忆而不是每次从零开始的瞬时智能。对应第三个问题把Prompt从个人表达变成团队共同语言。一个 Skill 一旦发布行为边界就是固定的——任何人在相同上下文里调用同一 Skill产出是一致的。Skill 充当了团队的标准操作程序让交付物在合并时不必从零对齐。对应第四个问题让贡献、复用、责任都有明确归属。每个 Skill 有版本号、变更日志、兼容性声明谁贡献、谁修改、谁复用、在哪个项目里被调用全部可追溯。这与报道中提到的 Workspace、Actor、Project 组织级框架在思路上相通读取可以跨项目发生但写入必须落到明确的主体之下。三、回到那个问题Harness 的本质是什么报道结尾给出了一个值得深思的判断Harness 的本质是把 Agent 放进真实的生产关系。生产关系里需要被显式管理的是数据、记忆、流程、权限、质量与责任。Agent Skill Warehouse 选择的支点是把其中经验那一环变成可治理的工程资产——它不是 Harness 的全部但它是 Harness 落地时最容易被忽视、却最容易决定成败的那一环。Agent 已经上了岗。接下来的竞争不会停留在谁能让 Agent 跑起来而是悄悄转向谁能让 Agent 在真实生产关系里持续产出、持续可控、持续被信任。那条分水岭不会写在任何一份模型白皮书里——它会写在每一个被沉淀、被评测、被版本化、被追溯的 Skill 里。参考资料Agent 上岗之后企业如何治理硅基团队 - InfoQ王玮Agent Skill Warehousemcp.smartmoves.com.cn

相关新闻

数据分析:numpy

数据分析:numpy

一、简介 1.1 NumPy 简介 NumPy(Numerical Python)是Python数据分析必不可少的第三方库。Numpy的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型,使其具备了构造复杂数据类型的能力。本身是由C语言开发,是个很基…

2026/7/5 8:46:55阅读更多 →
最长连续1子数组解法详解(力扣1004)

最长连续1子数组解法详解(力扣1004)

问题解析 题目要求:给定一个二进制数组 nums 和一个整数 k,你可以将最多 k 个 0 翻转为 1。请返回在执行任意次数的翻转操作后,数组中最长的连续 1子数组的长度 。 核心思路:将问题转化为寻找一个最长的子数组,使得…

2026/7/5 8:46:55阅读更多 →
Awesome ACG:二次元开发者工具合集

Awesome ACG:二次元开发者工具合集

文章目录Awesome ACG:二次元开发者工具合集Awesome ACG:二次元开发者工具合集 soruly 整理的 Awesome ACG 项目,在 GitHub 上获得了 1400 多个 Star。 这个项目收录了动漫、漫画、游戏、轻小说、视觉小说、Vocaloid 以及东方 Project 相关的…

2026/7/5 8:46:55阅读更多 →
Claude三大模型选型指南:Opus 4.7、Opus 4.6与Sonnet 4.6实战决策逻辑

Claude三大模型选型指南:Opus 4.7、Opus 4.6与Sonnet 4.6实战决策逻辑

1. 这不是“选模型”,而是给任务配一把趁手的刀 Claude三大模型怎么选?这个问题最近在技术群、产品会和AI工具测评里高频出现,但很多人一上来就陷入参数对比、benchmark排名、甚至“谁更像人类”的玄学讨论——这恰恰是踩进第一个坑。我带过7…

2026/7/5 10:02:00阅读更多 →
豆包AI vs DeepSeek:产品思维与工程思维的实战对比

豆包AI vs DeepSeek:产品思维与工程思维的实战对比

1. 项目概述:一个真实用户视角下的国产大模型体验对比 讲道理,我为什么觉得豆包比DeepSeek还好用?这句话不是标题党,也不是情绪输出,而是我在过去三个月里,每天平均调用5个以上大模型、累计完成200次实际任…

2026/7/5 10:02:00阅读更多 →
ChatGPT vs DeepPavlov:NLU工程落地的选型决策指南

ChatGPT vs DeepPavlov:NLU工程落地的选型决策指南

1. 这不是一场“谁更聪明”的表演赛,而是一次任务导向的工程实测你点开这篇文章,大概率不是想听“ChatGPT很厉害”或者“DeepPavlov很专业”这种泛泛而谈的结论。我干这行十多年,从早期用RNN做意图识别,到后来搭BERT微调流水线&am…

2026/7/5 10:02:00阅读更多 →
NLU任务选型指南:ChatGPT与DeepPavlov工程对比

NLU任务选型指南:ChatGPT与DeepPavlov工程对比

1. 这不是一场“谁更聪明”的表演赛,而是一次方法论的对照实验你点开这篇文章,大概率不是想看两个模型名字排排坐、比个分数高低。真正值得花时间琢磨的,是标题里那个被轻描淡写带过的词——Natural Language Understanding(NLU&a…

2026/7/5 10:02:00阅读更多 →
学习机不是平板:618选购必须关注教材同步与AI诊断精度

学习机不是平板:618选购必须关注教材同步与AI诊断精度

1. 为什么618买学习机不是“捡便宜”,而是“抢时间窗口”“不想踩坑,趁618大促购买学习机,有过来人推荐吗?”——这句话我每天在家长群、教育类小红书笔记和知乎问答里至少看到17次。不是夸张,是实打实的截图统计。它背…

2026/7/5 10:02:00阅读更多 →
ai模特服装模特商用解决方案实测,平台功能体验全解析

ai模特服装模特商用解决方案实测,平台功能体验全解析

在电商与内容产业中,ai模特服装模特技术正成为提升素材创新与效率的新工具。本篇将从一站式AI平台出发,评测多款图片与视频生成工具,聚焦服装模特生成、素材处理、多场景兼容能力,为商家与设计师解读核心功能与实际体验。 我将结…

2026/7/5 9:57:00阅读更多 →
从GitHub安全案例解析常见漏洞与防护实践

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述:从GitHub Trending看安全实战 最近在GitHub Trending上看到一个项目,叫 skills4/skills ,它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景:一个旨在展示或教授某种技能的仓库,本身却成了安…

2026/7/5 0:01:08阅读更多 →
MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示:因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战:从“黑箱预测”到“可信推理”2026年6月,第7届机器学习与趋势国际会议(MLT 2026)将在悉尼召开。会议议程中,“因果与可解释机器学习…

2026/7/5 0:01:08阅读更多 →
通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

1. 项目概述与漏洞背景最近在梳理一些历史OA系统的安全风险时,通达OA v11.6版本中的一个老漏洞又进入了我的视线。这个漏洞位于/general/bi_design/appcenter/report_bi.func.php文件中,是一个典型的SQL注入点。虽然这个漏洞的利用方式看起来并不复杂&am…

2026/7/5 0:01:08阅读更多 →
从GitHub安全案例解析常见漏洞与防护实践

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述:从GitHub Trending看安全实战 最近在GitHub Trending上看到一个项目,叫 skills4/skills ,它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景:一个旨在展示或教授某种技能的仓库,本身却成了安…

2026/7/5 0:01:08阅读更多 →
MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示:因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战:从“黑箱预测”到“可信推理”2026年6月,第7届机器学习与趋势国际会议(MLT 2026)将在悉尼召开。会议议程中,“因果与可解释机器学习…

2026/7/5 0:01:08阅读更多 →
通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

1. 项目概述与漏洞背景最近在梳理一些历史OA系统的安全风险时,通达OA v11.6版本中的一个老漏洞又进入了我的视线。这个漏洞位于/general/bi_design/appcenter/report_bi.func.php文件中,是一个典型的SQL注入点。虽然这个漏洞的利用方式看起来并不复杂&am…

2026/7/5 0:01:08阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/5 1:30:27阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/5 3:48:10阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/5 3:48:09阅读更多 →