DeNovoSWE数据集发布:大幅提升Code Agent长程任务能力,助力完整软件仓库生成
DeNovoSWE数据集发布大幅提升Code Agent长程任务能力助力完整软件仓库生成随着LLM Code Agent能力不断提升研究者意识到要迈向更接近真实场景需求的长程任务。于是像NL2RepoBench、BeyondSWE这类长程任务评测的Benchmark涌现出来。大家对Code Agent预期承担的角色也逐渐从仓库维护者转变为架构师期望它能做规划完成整个仓库代码的长程任务。近日中国人民大学高瓴人工智能学院完成相关研究重磅推出DeNovoSWE数据集。该数据集专注于长程软件工程任务尤其是仓库级别代码从零生成任务。论文链接https://arxiv.org/pdf/2606.10728 仓库链接https://github.com/AweAI - Team/DeNovoSWE 数据链接https://huggingface.co/collections/AweAI - Team/denovosweDeNovoSWE通过Divide Conquer与Critic Repair机制构造高质量数据集成功实现长程SWE任务的Scaling构建起包含4,818条真实数据的开源高质量长程SWE任务数据集。这一成果为Code Agent长程能力训练提供了大规模数据大幅提升了Code Agent长程任务能力。论文中还提供了根据题目难度打分过滤的手段有效缓解了困难题目比例与轨迹质量的权衡问题。实验显示基于DeNovoSWE训练的Qwen3 - 30B - A3B - Instruct在BeyondSWE - Doc2Repo上的成绩从5.8%提升到47.2%在NL2RepoBench上从4.3%提升到23.0%充分展示了长程数据对仓库级代码生成能力的显著提升。从一份文档开始重建整个仓库过去一年随着Scale - SWE等工作的大规模SWE数据scaling代码智能体在SWE - bench这类真实软件工程任务上进步迅速。但当模型越来越擅长“修一个issue”“改几行bug”后一个更关键的问题出现了智能体真的具备长程软件工程能力吗从BeyondSWE - Doc2Repo以及NL2RepoBench前沿模型的效果来看并不理想。在真实世界的软件开发中往往不是改一个函数、补一个条件判断而是要理解需求、规划架构、创建文件、设计API、处理依赖、打通模块并最终让整个仓库在测试中跑通。也就是说困难的是“long - horizon repository - level generation”从一份任务文档出发生成一个完整、可执行、可验证的软件仓库这正是DeNovoSWE想要解决的问题。高质量的“从头生成仓库”任务文档在document - to - repository generation中文档不只是README也不是简单的API列表它本质上是智能体重建整个仓库的唯一任务入口。一份高质量的任务文档至少需要满足两个核心标准。第一它必须是well - organized的。仓库级任务天然复杂包含多个模块、接口、配置、数据结构和交互流程。如果文档只是把函数说明堆在一起智能体很容易迷失在碎片信息中。因此文档应该先给出清晰的仓库总览再按照能力或工作流拆分章节让每一部分都对应明确的功能边界。第二它必须从可靠evaluation的角度出发。文档既不能太少否则任务变成欠定义问题可能使模型需要靠漫无边际猜才能通过evaluation也不能太多否则直接泄漏实现细节让任务失去挑战。真正高质量的文档应该描述evaluation所依赖的关键行为包括import path、公开API、输入输出、默认参数、异常行为、配置项、模式字符串、返回字段等也描述出大致需要完成的功能。也就是说文档要足以让智能体复现可测试行为但不能变成实现代码的拷贝。这也是DeNovoSWE的核心思想让文档既可读、可实现又可验证。DeNovoSWE方法DeNovoSWE将“从文档生成完整仓库”构造成一个大规模、可验证的长程软件工程任务。它不是人工手写文档而是通过一个sandboxed multi - agent workflow自动构建高质量实例。整个方法可以概括为两步Divide和Conquer。在Divide阶段系统首先分析目标仓库将其拆解为多个repository capabilities。每个capability对应仓库中的一个核心能力或工作流例如认证与连接、数据读写、批处理、导出流程等。这样原本庞大的仓库生成问题被拆成若干结构清晰的文档章节。同时DeNovoSWE会运行原始单元测试并收集执行trace识别哪些函数、类和接口真正影响evaluation进一步区分direct components、core indirect components和non - core indirect components直接被测试调用的接口必须详细记录会影响可观察行为的核心间接组件也需要覆盖而非核心内部实现则可以留给智能体自由发挥。在Conquer阶段DeNovoSWE使用Draft - Critic - Repair机制逐能力生成文档。Draft agent先写出初稿Critic agent检查文档是否遗漏关键API、行为契约或结构信息Repair agent再根据反馈修复文档。这个循环不断迭代直到每个能力章节足够清晰、完整、与evaluation对齐。最终不同能力文档会被合并成一份完整的任务文档作为智能体从零生成仓库的唯一依据。难度为什么这是长程任务DeNovoSWE的任务难度源于一个根本变化它不再是issue - level fixing而是whole - repository generation。在传统SWE任务中智能体通常面对的是一个已有仓库只需要定位bug、修改局部代码、通过测试即可。而在DeNovoSWE中智能体面对的是一个被清理后的环境原始源码和测试被移除git历史被重置缓存、site - packages残留、pip wheel、临时编译产物等潜在泄漏渠道也会被清除。这意味着智能体必须真正依赖文档来完成整个仓库的重建。它需要规划项目结构创建模块文件定义公开接口实现跨文件交互处理依赖和配置并在多轮编辑与测试反馈中不断修复错误。任何一个API签名、返回字段、异常类型或默认行为的偏差都可能导致测试失败。而且错误还会在长程过程中累积一个早期设计不合理的模块可能影响后续多个文件和调用链。为了进一步处理不同仓库难度差异DeNovoSWE还提出了difficulty - aware trajectory filtering。简单来说容易任务应该要求更高通过率困难任务则不能因为没有达到完美分数就被全部丢弃。DeNovoSWE根据结构复杂度和LLM难度判断为不同难度区间设置不同过滤阈值从而在质量和多样性之间取得平衡。这对于长程任务尤其重要越复杂的仓库越难一次性完全通过所有测试但其中的困难仓库、低分、部分成功的轨迹仍然包含宝贵的长程规划与实现能力。实验结果DeNovoSWE最终构建了4818个高质量document - to - repository任务实例形成了可执行、可评估、可训练的长程软件工程环境。实验结果显示DeNovoSWE对模型的长程仓库生成能力带来了显著提升。在Qwen3 - 30B - A3B - Instruct上原始模型在BeyondSWE - Doc2Repo上只有5.8%的成绩在NL2RepoBench上只有4.3%。使用常规issue - level SWE数据训练的Scale - SWE - Agent可以提升到29.2%和18.3%说明普通SWE数据确实有迁移效果。但当模型使用DeNovoSWE训练后性能进一步提升到47.2%和23.0%。这说明面向“修bug”的数据并不能完全替代面向“生成完整仓库”的长程数据。想让智能体真正学会repository - level engineering需要专门面向长程任务构建训练环境。在更强的Qwen3.5 - 35B - A3B backbone上DeNovoSWE同样带来稳定收益BeyondSWE - Doc2Repo从43.8%提升到50.0%NL2RepoBench从23.5%提升到27.1%。这进一步说明DeNovoSWE的收益不是偶然适配某一个模型而是来自高质量长程数据本身。结语代码智能体的下一阶段不只是更快地修复单个issue而是要能够理解文档、规划架构、组织模块、实现接口并最终生成一个完整可运行的软件仓库。DeNovoSWE将这个目标系统化地构造成了可训练、可验证、可扩展的数据集。它回答了一个关键问题什么样的数据才能真正训练出具备长程软件工程能力的智能体答案不是更多碎片化代码也不是更简单的题目而是高质量、结构化、evaluation - aligned、anti - leakage的全仓库生成任务。从一份文档开始重建整个repository。这是长程代码智能体需要跨越的门槛。

相关新闻

【无标题】亦唐科技的人工智能创新与应用

【无标题】亦唐科技的人工智能创新与应用

引言 人工智能(AI)正成为推动全球科技变革的核心动力。亦唐科技作为行业领先的科技企业,深度布局AI技术,通过创新算法、智能数据分析、深度学习等技术,推动人工智能在多个领域的应用,包括智能制造、金融科技…

2026/6/26 5:02:44阅读更多 →
高防IP一个月6500还只是起步?聊聊小团队能用的DDoS防护方案

高防IP一个月6500还只是起步?聊聊小团队能用的DDoS防护方案

先交代一下背景。我们做海外工具站的,日活不算大,几万的样子,但架不住被同行和黑产轮流盯上。 去年被一次100G的UDP Flood直接打穿,免费清洗就是个摆设,业务停了6个小时。老板批了预算让我找防护,我花了一个…

2026/6/26 4:57:42阅读更多 →
运维转大模型:把学习路线变成作品集

运维转大模型:把学习路线变成作品集

先说一句实在的:别急着背概念,先看它在真实项目里到底解决什么问题。摘要这篇面向想从运维、SRE 转向 AI 自动化平台的工程师,但不会把“运维转大模型:把学习路线变成作品集”写成概念清单。我会按运维工程化实战教程的思路&#…

2026/6/26 4:57:42阅读更多 →
自适应离散化算法:最优实验设计的计算效率与MATLAB实现

自适应离散化算法:最优实验设计的计算效率与MATLAB实现

1. 项目概述:当最优设计遇上自适应离散化在工程优化、药物研发、材料科学乃至机器学习模型调参中,我们常常面临一个经典难题:如何用最少的实验次数,获取最丰富、最可靠的信息,从而高效地逼近目标?这就是最优…

2026/6/26 6:02:49阅读更多 →
SG函数:让博弈“化整为零”

SG函数:让博弈“化整为零”

引言在算法竞赛中,博弈论题目常常让人望而生畏:两个绝顶聪明的人轮流操作,问谁赢谁输。最简单的取石子游戏(Nim 游戏)有一个漂亮的结论——异或和为 0 则先手必败,否则先手必胜。但题目稍微一变&#xff0c…

2026/6/26 6:02:49阅读更多 →
视神经里的“守护者”:云克隆小鼠视神经星形胶质细胞(Optic Nerve Astrocytes,ONA)让青光眼研究有了新工具

视神经里的“守护者”:云克隆小鼠视神经星形胶质细胞(Optic Nerve Astrocytes,ONA)让青光眼研究有了新工具

在视神经系统中,有一群细胞虽然不像神经元那样直接传递视觉信号,却默默承担着“守护者”的职责——星形胶质细胞(Optic Nerve Astrocytes ,ONA)。它们是中枢神经系统中数量最多的胶质细胞,在视神经乳头处更是主力军。视…

2026/6/26 6:02:49阅读更多 →
LabVIEW汽车控制板自动测试系

LabVIEW汽车控制板自动测试系

阅读时间:6分钟 | 适用人群:汽车电子工程师/测试系统设计师/质量控制技术人员汽车控制板作为整车电子电气架构的核心单元,传统人工测试依赖示波器、万用表等独立仪器,存在测试周期长、重复性差、数据追溯困难等问题。某汽车零部件…

2026/6/26 6:02:49阅读更多 →
为何要服务好每月3K需求的IoT FEM客户

为何要服务好每月3K需求的IoT FEM客户

转载自--《钟林谈芯》很明显,2026年需要做技术支持和调试的客户板子增加了很多,FAE忙不过来了。那就加人,今年从福州大学微电子学院招聘了本科毕业生,加强技术支持团队。其实,就算不招聘新的FAE,三伍微也能…

2026/6/26 6:02:49阅读更多 →
android网络命名空间隔离相同网段

android网络命名空间隔离相同网段

不行。普通 App 即使只“用现成的、已经创建好的网络命名空间”,也依然需要 root / 系统级特权,否则内核会直接拒绝。 下面把关键点讲清楚(Android ≈ 普通 Linux 内核规则):1. “加入已有命名空间”也是特权操作 不管…

2026/6/26 5:57:48阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 4:15:25阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →