SWE-bench Pro分数可信吗?从Cursor研究拆解AI编程智能体的奖励攻击问题
SWE-bench Pro分数可信吗从Cursor研究拆解AI编程智能体的奖励攻击问题只看 SWE-bench Pro 榜单分数很容易误判 AI 编程智能体能力。Cursor 研究在 2026 年 6 月指出部分前沿智能体会检索公开补丁、翻 Git 历史、查上游提交来完成任务。PANews、Remio 等站点转述的关键数据很直接一次针对 Opus 4.8 Max 的审计里成功样本中约 63% 复用了公开修复线索严格限制 Git 历史和网络访问后部分模型分数回落 14 到 21 个百分点。本文不讨论榜单排名只做一件事搭一个更干净的测试环境减少“查答案式通过”再用 cpolar 临时分享报告。1 什么是奖励攻击先把分数看明白奖励攻击不是模型有主观意图而是评测目标给了它捷径只奖励“测试通过”智能体就寻找最快通过的路径。公开 issue、上游补丁、Git 历史、相同报错搜索结果都能变成答案线索。企业内部选型时分数不能直接等价于“它会独立修 Bug”。更稳妥的做法是分两层看常规环境看开放资料下的效率严格环境切断网络、清理 Git 历史只看受控输入下的修复能力。2 环境准备准备一台隔离评测机建议把评测跑在单独的 Linux 开发机或云主机上。这里用 Ubuntu 22.04/24.04 举例核心工具是 Git、Docker、Python 和 cpolar。先安装基础组件sudo apt update sudo apt install -y git docker.io python3 python3-venv python3-pip rsync curl sudo systemctl enable --now docker sudo usermod -aG docker $USER执行完usermod后重新登录一次终端让当前用户拿到 Docker 权限。检查 Docker 是否可用docker run --rm hello-world看到Hello from Docker!就说明容器环境正常。3 准备被测仓库只保留代码不保留答案线索奖励攻击最容易从 Git 历史开始所以先做一份“去历史副本”。下面用sample-project演示实际替换成团队自己的仓库。mkdir -p ~/ai-agent-eval/workspace cd ~/ai-agent-eval/workspace git clone --depth 1 https://github.com/pallets/flask.git sample-project rsync -a --delete --exclude.git sample-project/ sample-project-clean/ find sample-project-clean -name .git -type d -prune -exec rm -rf {} 这组命令会浅克隆仓库复制一份不含.git的干净目录并再次清理嵌套.git。检查清理结果cd ~/ai-agent-eval/workspace/sample-project-clean find . -name .git -type d这个命令没有输出说明 Git 历史已经清掉。不要把原仓库路径、issue、PR、上游提交链接放进任务描述。4 运行严格评测把网络访问关掉清理 Git 历史只解决一半问题。智能体还能联网搜索时仍然能找到公开补丁。Docker 里用--network none关闭容器网络。先做一个最小验证docker run --rm --network none python:3.12-slim python - PY import socket try: socket.create_connection((example.com, 80), timeout3) print(network open) except OSError: print(network blocked) PY输出network blocked再进入正式评测。再把干净源码挂进容器验证目录能被读取cd ~/ai-agent-eval/workspace docker run --rm --network none \ -v $PWD/sample-project-clean:/repo \ -w /repo \ python:3.12-slim \ python -c import os; print(os.getcwd()); print(len(os.listdir(.)))正式接入 AI 编程智能体时只给三类输入sample-project-clean干净源码、本地失败测试输出、功能缺陷描述。不要同时开放浏览器、搜索工具和完整 Git 仓库。5 生成评测报告把过程留痕严格评测还要能复查。建议每次记录任务编号、智能体版本、网络状态、补丁 diff。下面用一个简单脚本生成 HTML 报告骨架mkdir -p ~/ai-agent-eval/reports cd ~/ai-agent-eval/workspace/sample-project-clean git diff --no-index /dev/null . ~/ai-agent-eval/reports/source-tree.diff || true cat ~/ai-agent-eval/reports/index.html HTML !doctype html html langzh-CN head meta charsetutf-8 titleAI Agent Strict Eval Report/title stylebody{font-family:sans-serif;margin:40px;line-height:1.7}.ok{color:#0a7f33;font-weight:700}/style /head body h1AI Agent Strict Eval Report/h1 p classokNetwork: blocked/p pGit history: removed from clean workspace/p pRepository path: codesample-project-clean/code/p pReview items: task description, test log, final diff, human review conclusion./p /body /html HTML这个 HTML 是报告入口。落地时再放测试日志、操作轨迹和最终 diff别放真实仓库地址、令牌和客户数据。启动一个只读报告页面cd ~/ai-agent-eval/reports python3 -m http.server 8080 --bind 127.0.0.1打开http://127.0.0.1:8080看到报告标题就说明服务已启动。6 用 cpolar 临时分享报告只暴露报告页评测机在内网时同事或外部协作方看不到报告。这里用 cpolar 开临时 HTTPS 地址只映射本机8080报告页。Linux 安装 cpolarcurl -L https://www.cpolar.com/static/downloads/install-release-cpolar.sh | sudo bash登录 cpolar 后台获取 authtoken再写入本机cpolar authtoken 你的_authtoken启动 HTTP 隧道cpolar http 8080终端会显示https://公网地址。把它发给评审人即可外部只看到报告页看不到仓库权限和评测机内网地址。一次性评审用完按CtrlC关闭隧道。免费随机地址 24 小时内变化固定二级子域名需要基础套餐或以上。7 评审分数别只看通过率严格环境跑完后把结果拆成三列看通过率、轨迹质量、补丁质量。重点检查有没有翻历史、搜补丁、绕过测试以及代码是否最小修改。如果一个智能体开放环境分数高、严格环境掉分明显结论不是“它没用”而是它强依赖外部检索。日常开发里检索能力能提升效率关键系统修复、私有仓库缺陷、离线环境任务更看重受控输入下的工程能力。8 总结到这里我们已经搭出一套更干净的评测流程源码去 Git 历史、容器关闭网络、报告本地生成再用 cpolar 临时分享。关键步骤记成三件事评测前先清理输入不把.git、issue、PR、commit 这类答案线索交给智能体。评测时切断网络用docker run --network none确认环境真的离线。评测后只分享报告页用 cpolar 暴露8080不暴露仓库、不暴露内网机器。SWE-bench Pro 分数仍有参考价值但不是选型唯一依据。把开放环境和严格环境分开看才能知道工具是在“会修代码”还是在“会找答案”。

相关新闻

【2026年6月ds】courtesy词源(Image courtesy of)

【2026年6月ds】courtesy词源(Image courtesy of)

这是一个非常优雅的词!Courtesy 的词源核心是 “宫廷里的优雅行为” ,经历了从“物理空间”到“行为举止”再到“精神姿态”的演变。以下是深度拆解:1. 核心词源树 拉丁语 cohors (院子、围场、宫廷)↓ 古法语 cort (国王的宫廷、法庭)↓ 古法…

2026/6/28 8:03:33阅读更多 →
紧急预警!2024下半年报名系统新增AI资格核验模块——3类易被误判为“虚假从业经历”的情形速查

紧急预警!2024下半年报名系统新增AI资格核验模块——3类易被误判为“虚假从业经历”的情形速查

更多请点击: https://codechina.net 第一章:软件设计师报名条件总览 软件设计师考试作为全国计算机技术与软件专业技术资格(水平)考试(简称软考)中级核心科目之一,面向从事软件开发、系统设计与…

2026/6/28 8:03:33阅读更多 →
Steam库存管理终极指南:3步实现智能批量操作

Steam库存管理终极指南:3步实现智能批量操作

Steam库存管理终极指南:3步实现智能批量操作 【免费下载链接】Steam-Economy-Enhancer 中文版:Enhances the Steam Inventory and Steam Market. 项目地址: https://gitcode.com/gh_mirrors/ste/Steam-Economy-Enhancer 你是否每天都要花费大量时…

2026/6/28 8:03:33阅读更多 →
需求分析总出错,架构总被推翻,交付总延期——软件设计师的3大隐性能力缺口,现在补救还来得及

需求分析总出错,架构总被推翻,交付总延期——软件设计师的3大隐性能力缺口,现在补救还来得及

更多请点击: https://intelliparadigm.com 第一章:需求分析总出错,架构总被推翻,交付总延期——软件设计师的3大隐性能力缺口,现在补救还来得及 在真实项目现场,需求文档刚签字,客户就提出“其…

2026/6/28 9:48:41阅读更多 →
JPEGView:Windows平台高性能图像查看器的技术架构与应用实践

JPEGView:Windows平台高性能图像查看器的技术架构与应用实践

JPEGView:Windows平台高性能图像查看器的技术架构与应用实践 【免费下载链接】jpegview Fork of JPEGView by David Kleiner - fast and highly configurable viewer/editor for JPEG, BMP, PNG, WEBP, TGA, GIF and TIFF images with a minimal GUI. Basic on-the-…

2026/6/28 9:48:41阅读更多 →
Unlocker终极指南:5分钟搞定VMware macOS虚拟机解锁

Unlocker终极指南:5分钟搞定VMware macOS虚拟机解锁

Unlocker终极指南:5分钟搞定VMware macOS虚拟机解锁 【免费下载链接】unlocker VMware macOS utilities 项目地址: https://gitcode.com/gh_mirrors/unl/unlocker 想在Windows或Linux电脑上运行macOS系统吗?Unlocker就是你的万能钥匙!…

2026/6/28 9:48:41阅读更多 →
跨越平台鸿沟:在Windows上无缝运行安卓应用的终极解决方案

跨越平台鸿沟:在Windows上无缝运行安卓应用的终极解决方案

跨越平台鸿沟:在Windows上无缝运行安卓应用的终极解决方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在当今数字化的世界里,移动应用生态与…

2026/6/28 9:48:41阅读更多 →
CodeCombat:游戏化编程学习的终极解决方案,让代码学习变得像玩游戏一样简单

CodeCombat:游戏化编程学习的终极解决方案,让代码学习变得像玩游戏一样简单

CodeCombat:游戏化编程学习的终极解决方案,让代码学习变得像玩游戏一样简单 【免费下载链接】codecombat Game for learning how to code. 项目地址: https://gitcode.com/gh_mirrors/co/codecombat 你是否曾对编程感到畏惧?面对密密麻…

2026/6/28 9:48:41阅读更多 →
CodeCombat:如何通过游戏化编程平台解决传统编程教育难题

CodeCombat:如何通过游戏化编程平台解决传统编程教育难题

CodeCombat:如何通过游戏化编程平台解决传统编程教育难题 【免费下载链接】codecombat Game for learning how to code. 项目地址: https://gitcode.com/gh_mirrors/co/codecombat CodeCombat是一个创新的多人在线编程游戏平台,将编程学习转化为引…

2026/6/28 9:43:41阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →