DeNovoSWE数据集发布：大幅提升Code Agent长程任务能力，助力完整软件仓库生成-拓冰网站优化

DeNovoSWE数据集发布大幅提升Code Agent长程任务能力助力完整软件仓库生成随着LLM Code Agent能力不断提升研究者意识到要迈向更接近真实场景需求的长程任务。于是像NL2RepoBench、BeyondSWE这类长程任务评测的Benchmark涌现出来。大家对Code Agent预期承担的角色也逐渐从仓库维护者转变为架构师期望它能做规划完成整个仓库代码的长程任务。近日中国人民大学高瓴人工智能学院完成相关研究重磅推出DeNovoSWE数据集。该数据集专注于长程软件工程任务尤其是仓库级别代码从零生成任务。论文链接https://arxiv.org/pdf/2606.10728 仓库链接https://github.com/AweAI - Team/DeNovoSWE 数据链接https://huggingface.co/collections/AweAI - Team/denovosweDeNovoSWE通过Divide Conquer与Critic Repair机制构造高质量数据集成功实现长程SWE任务的Scaling构建起包含4,818条真实数据的开源高质量长程SWE任务数据集。这一成果为Code Agent长程能力训练提供了大规模数据大幅提升了Code Agent长程任务能力。论文中还提供了根据题目难度打分过滤的手段有效缓解了困难题目比例与轨迹质量的权衡问题。实验显示基于DeNovoSWE训练的Qwen3 - 30B - A3B - Instruct在BeyondSWE - Doc2Repo上的成绩从5.8%提升到47.2%在NL2RepoBench上从4.3%提升到23.0%充分展示了长程数据对仓库级代码生成能力的显著提升。从一份文档开始重建整个仓库过去一年随着Scale - SWE等工作的大规模SWE数据scaling代码智能体在SWE - bench这类真实软件工程任务上进步迅速。但当模型越来越擅长“修一个issue”“改几行bug”后一个更关键的问题出现了智能体真的具备长程软件工程能力吗从BeyondSWE - Doc2Repo以及NL2RepoBench前沿模型的效果来看并不理想。在真实世界的软件开发中往往不是改一个函数、补一个条件判断而是要理解需求、规划架构、创建文件、设计API、处理依赖、打通模块并最终让整个仓库在测试中跑通。也就是说困难的是“long - horizon repository - level generation”从一份任务文档出发生成一个完整、可执行、可验证的软件仓库这正是DeNovoSWE想要解决的问题。高质量的“从头生成仓库”任务文档在document - to - repository generation中文档不只是README也不是简单的API列表它本质上是智能体重建整个仓库的唯一任务入口。一份高质量的任务文档至少需要满足两个核心标准。第一它必须是well - organized的。仓库级任务天然复杂包含多个模块、接口、配置、数据结构和交互流程。如果文档只是把函数说明堆在一起智能体很容易迷失在碎片信息中。因此文档应该先给出清晰的仓库总览再按照能力或工作流拆分章节让每一部分都对应明确的功能边界。第二它必须从可靠evaluation的角度出发。文档既不能太少否则任务变成欠定义问题可能使模型需要靠漫无边际猜才能通过evaluation也不能太多否则直接泄漏实现细节让任务失去挑战。真正高质量的文档应该描述evaluation所依赖的关键行为包括import path、公开API、输入输出、默认参数、异常行为、配置项、模式字符串、返回字段等也描述出大致需要完成的功能。也就是说文档要足以让智能体复现可测试行为但不能变成实现代码的拷贝。这也是DeNovoSWE的核心思想让文档既可读、可实现又可验证。DeNovoSWE方法DeNovoSWE将“从文档生成完整仓库”构造成一个大规模、可验证的长程软件工程任务。它不是人工手写文档而是通过一个sandboxed multi - agent workflow自动构建高质量实例。整个方法可以概括为两步Divide和Conquer。在Divide阶段系统首先分析目标仓库将其拆解为多个repository capabilities。每个capability对应仓库中的一个核心能力或工作流例如认证与连接、数据读写、批处理、导出流程等。这样原本庞大的仓库生成问题被拆成若干结构清晰的文档章节。同时DeNovoSWE会运行原始单元测试并收集执行trace识别哪些函数、类和接口真正影响evaluation进一步区分direct components、core indirect components和non - core indirect components直接被测试调用的接口必须详细记录会影响可观察行为的核心间接组件也需要覆盖而非核心内部实现则可以留给智能体自由发挥。在Conquer阶段DeNovoSWE使用Draft - Critic - Repair机制逐能力生成文档。Draft agent先写出初稿Critic agent检查文档是否遗漏关键API、行为契约或结构信息Repair agent再根据反馈修复文档。这个循环不断迭代直到每个能力章节足够清晰、完整、与evaluation对齐。最终不同能力文档会被合并成一份完整的任务文档作为智能体从零生成仓库的唯一依据。难度为什么这是长程任务DeNovoSWE的任务难度源于一个根本变化它不再是issue - level fixing而是whole - repository generation。在传统SWE任务中智能体通常面对的是一个已有仓库只需要定位bug、修改局部代码、通过测试即可。而在DeNovoSWE中智能体面对的是一个被清理后的环境原始源码和测试被移除git历史被重置缓存、site - packages残留、pip wheel、临时编译产物等潜在泄漏渠道也会被清除。这意味着智能体必须真正依赖文档来完成整个仓库的重建。它需要规划项目结构创建模块文件定义公开接口实现跨文件交互处理依赖和配置并在多轮编辑与测试反馈中不断修复错误。任何一个API签名、返回字段、异常类型或默认行为的偏差都可能导致测试失败。而且错误还会在长程过程中累积一个早期设计不合理的模块可能影响后续多个文件和调用链。为了进一步处理不同仓库难度差异DeNovoSWE还提出了difficulty - aware trajectory filtering。简单来说容易任务应该要求更高通过率困难任务则不能因为没有达到完美分数就被全部丢弃。DeNovoSWE根据结构复杂度和LLM难度判断为不同难度区间设置不同过滤阈值从而在质量和多样性之间取得平衡。这对于长程任务尤其重要越复杂的仓库越难一次性完全通过所有测试但其中的困难仓库、低分、部分成功的轨迹仍然包含宝贵的长程规划与实现能力。实验结果DeNovoSWE最终构建了4818个高质量document - to - repository任务实例形成了可执行、可评估、可训练的长程软件工程环境。实验结果显示DeNovoSWE对模型的长程仓库生成能力带来了显著提升。在Qwen3 - 30B - A3B - Instruct上原始模型在BeyondSWE - Doc2Repo上只有5.8%的成绩在NL2RepoBench上只有4.3%。使用常规issue - level SWE数据训练的Scale - SWE - Agent可以提升到29.2%和18.3%说明普通SWE数据确实有迁移效果。但当模型使用DeNovoSWE训练后性能进一步提升到47.2%和23.0%。这说明面向“修bug”的数据并不能完全替代面向“生成完整仓库”的长程数据。想让智能体真正学会repository - level engineering需要专门面向长程任务构建训练环境。在更强的Qwen3.5 - 35B - A3B backbone上DeNovoSWE同样带来稳定收益BeyondSWE - Doc2Repo从43.8%提升到50.0%NL2RepoBench从23.5%提升到27.1%。这进一步说明DeNovoSWE的收益不是偶然适配某一个模型而是来自高质量长程数据本身。结语代码智能体的下一阶段不只是更快地修复单个issue而是要能够理解文档、规划架构、组织模块、实现接口并最终生成一个完整可运行的软件仓库。DeNovoSWE将这个目标系统化地构造成了可训练、可验证、可扩展的数据集。它回答了一个关键问题什么样的数据才能真正训练出具备长程软件工程能力的智能体答案不是更多碎片化代码也不是更简单的题目而是高质量、结构化、evaluation - aligned、anti - leakage的全仓库生成任务。从一份文档开始重建整个repository。这是长程代码智能体需要跨越的门槛。

DeNovoSWE数据集发布：大幅提升Code Agent长程任务能力，助力完整软件仓库生成

相关新闻

【无标题】亦唐科技的人工智能创新与应用

高防IP一个月6500还只是起步？聊聊小团队能用的DDoS防护方案

运维转大模型：把学习路线变成作品集

自适应离散化算法：最优实验设计的计算效率与MATLAB实现

SG函数：让博弈“化整为零”

视神经里的“守护者”：云克隆小鼠视神经星形胶质细胞（Optic Nerve Astrocytes,ONA）让青光眼研究有了新工具

LabVIEW汽车控制板自动测试系

为何要服务好每月3K需求的IoT FEM客户

android网络命名空间隔离相同网段

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Google AI Studio 300美元额度的真相与实战指南

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

Kotlin的@JvmStatic与@JvmField：与Java互操作的注解

深入解析musl libc中的mmap实现源码