给Agent写快照测试,改一版prompt一眼看出回归
调 prompt 最怕的不是改了没效果是改这处、悄悄崩了那处。你为了修 A 问题动了一句话结果 B、C 两类问题的回答跟着变差了自己还没察觉就上线了。我治这个的办法很土但很顶用给 Agent 套一层快照测试——把一批固定输入的输出存成快照每次改完 prompt 重跑diff 一看就知道哪些答案变了。快照测试是个啥借的是前端 snapshot 测试的思路。准备一组代表性输入第一次跑把每条的输出拍照存下来当基准。以后每改一次 prompt/模型/工具重新跑同一批输入把新输出和基准 diff。没变的略过变了的人工看一眼是我想要的改进还是误伤的回归跟评测打分不一样——评测告诉你分多高快照告诉你具体哪几条变了、变成啥样了排查回归特别直观。怎么落import json, os, difflib CASES snapshot/cases.jsonl # 固定输入集 SNAP snapshot/baseline.json # 基准输出 def run_all(): out {} for line in open(CASES): c json.loads(line) out[c[id]] call_agent(c[input]).strip() return out def update_baseline(): # 确认无误后把当前输出固化为新基准 json.dump(run_all(), open(SNAP, w), ensure_asciiFalse, indent2) def check(): # 改完 prompt 跑这个 base json.load(open(SNAP)) cur run_all() changed [] for cid, new in cur.items(): old base.get(cid, ) if old ! new: changed.append(cid) print(f\n {cid} 输出变化 ) for d in difflib.unified_diff(old.splitlines(), new.splitlines(), lineterm): print(d) print(f\n共 {len(changed)}/{len(cur)} 条输出发生变化) return changed几个让它真正好用的细节输入集要覆盖各类问题不是越多越好。我每个意图类别挑 3-5 个代表 case正常问、边界问、容易触发幻觉的问、该转人工的问。几十条精挑的比几百条重复的有用。大模型有随机性输出每次都不完全一样咋办两招压测试用例时把temperature调到 0 减少抖动diff 不要求字符级完全一致可以加一层语义是否一致的宽松判断或人工只看明显变化的那几条别被标点差异淹没。快照不是测对不对是测变没变。它不替代正确性评测。一条 case 一直是错的快照只会显示没变化——所以基准本身得是你认可的好输出垃圾基准只会保护垃圾。一个真实场景我改一句让客服回答更简洁的 prompt跑 check发现 32 条里变了 9 条。8 条确实更简洁了第 9 条——一条怎么退货——被简洁过头把退货必须的7天内、吊牌完整两个关键条件给删了。要不是 diff 标出来这种改好了大部分、漏了一个关键的回归上线后得等用户投诉才发现。说点不好的快照测试有维护成本prompt 大改一版可能几十条全变得逐条确认再更新基准有点烦。所以它适合小步快调大重构时它帮不上太多忙。还有随机性这个老问题再怎么压温度长输出还是会有细微抖动得接受diff 里有噪声靠人去分辨真回归和假变化没法全自动。模型推理我用讯飞星辰 MaaS 现成 API跑快照时把温度压到 0、固定模型版本输出稳定多了diff 噪声小这套测试才跑得顺。你们调 prompt 怎么防回归纯靠人眼看还是有自动化评论区说说你们的做法。

相关新闻

六轴机器人-电山派SCH1

六轴机器人-电山派SCH1

################################################## 此处来自立创开源机器人:https://oshwhub.com/gshaoburuchuan/project_oajuxfqg 本文只做深度解析,不作任何商业用途,详情请看以上链接, ##################################…

2026/6/30 3:08:13阅读更多 →
零基础学习C++逆向日记 Day.4

零基础学习C++逆向日记 Day.4

学到汇编指令了,感觉有点卡脖子,重新梳理一下基础,这两天好好复习一下,暂时不更新了,没有放弃,一定会成功的。

2026/6/30 3:08:13阅读更多 →
描述统计分析完全指南:从原理到SPSSUltra实操平替spss

描述统计分析完全指南:从原理到SPSSUltra实操平替spss

一、实操:用SPSSUltra完成描述统计分析1.1 工具介绍SPSSUltra是一个在线的统计分析平台,无需安装,浏览器打开即可使用。支持上传Excel/CSV/SPSS格式数据,覆盖描述统计、相关分析、回归分析、因子分析等常用功能。本文用一组5条记录…

2026/6/30 3:08:13阅读更多 →
HVV应急响应靶机Web1实战:从入侵检测到系统恢复全流程解析

HVV应急响应靶机Web1实战:从入侵检测到系统恢复全流程解析

1. 项目概述:从靶机到实战的桥梁“Hvv-知攻善防应急响应靶机--Web1”这个标题,对于任何一个在网络安全领域摸爬滚打过的从业者来说,都像是一份熟悉的“老朋友”发来的挑战书。它不是一个简单的虚拟机镜像,而是一个精心设计的、高度…

2026/6/30 4:03:16阅读更多 →
大模型招聘疯了吧?128万年薪背后,到底谁在抢人

大模型招聘疯了吧?128万年薪背后,到底谁在抢人

128万!!这是字节跳动给「大模型应用架构专家」开出的年薪。与此同时,松延动力、银河通用的机器人算法岗年薪也双双破百万。脉脉的数据更直接——2026年春招,AI相关岗位同比增长14倍。 你可能觉得这些数字跟你没关系,毕…

2026/6/30 4:03:16阅读更多 →
2026年零基础学量化开发,先把大任务拆小

2026年零基础学量化开发,先把大任务拆小

没有编程和交易经验的人进入量化学习时,最容易把所有问题看成同一个大问题:既要懂市场,又要会写代码,还要知道系统怎么运行。更合适的起点,是先承认自己需要一个学习顺序,而不是急着证明自己能不能做出完整…

2026/6/30 4:03:16阅读更多 →
如何在Kodi实现云端观影:小白也能轻松上手的115网盘插件终极指南

如何在Kodi实现云端观影:小白也能轻松上手的115网盘插件终极指南

如何在Kodi实现云端观影:小白也能轻松上手的115网盘插件终极指南 【免费下载链接】115proxy-for-kodi 115原码播放服务Kodi插件 项目地址: https://gitcode.com/gh_mirrors/11/115proxy-for-kodi 还在为本地硬盘空间告急而烦恼吗?想要在Kodi媒体中…

2026/6/30 4:03:16阅读更多 →
安达发|疯了!aps软件让电器生产效率提升到“变态”级别

安达发|疯了!aps软件让电器生产效率提升到“变态”级别

安达发APS高级生产计划智能排产排程自动排单软件系统推荐_MES 在电器行业竞争日益激烈的今天,如何提高生产效率、降低成本、优化供应链,成为了每个电器企业亟待解决的问题。而aps软件,正逐渐成为电器行业实现这些目标的秘密武器。 什么是ap…

2026/6/30 4:03:16阅读更多 →
GitHub 今日 +2299 Star,这个工具让 AI 读代码不再像翻字典

GitHub 今日 +2299 Star,这个工具让 AI 读代码不再像翻字典

两周前,一个叫 Understand-Anything 的项目在 GitHub 单日涨了 2,299 个 Star,总 Star 数达到 22,600,登上 TypeScript Trending 榜首。它的核心主张只有一句话:图谱会教你代码,而不只是展示代码。 这篇文章想搞清楚的…

2026/6/30 3:58:15阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 4:03:30阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/29 2:19:08阅读更多 →
为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南

为什么你需要Destiny 2 Solo Enabler:技术原理与实战指南 【免费下载链接】Destiny-2-Solo-Enabler Repo containing the C# and XAML code for the D2SE program. Included is also the dependency for the program, and image asset. 项目地址: https://gitcode…

2026/6/30 0:02:58阅读更多 →
第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

第六章:PowerPoint 2010 核心功能与实战应用 —— 从入门到精通

1. PowerPoint 2010基础操作全攻略 刚接触PowerPoint 2010时,很多人会被它复杂的界面吓到。其实只要掌握几个核心区域,就能快速上手。我最开始用PPT时,经常找不到功能按钮在哪,后来发现主要操作都集中在顶部功能区。 工作窗口主要…

2026/6/30 0:02:58阅读更多 →
XGBoost超参数实战:从理论到调优策略

XGBoost超参数实战:从理论到调优策略

1. XGBoost超参数基础认知 第一次接触XGBoost时,我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果,但按错了就可能坠机。经过多年实战,我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:59阅读更多 →