上海 AI Lab 35B 参数 Agents - A1 逼近万亿级长程表现,但仍有提升空间
上海 AI Lab 推出 Agents - A135B 参数模型逼近万亿级长程表现仍有提升空间长程Long - Horizon任务是当前 AI Agent 亟需突破的难题之一。在软件工程、科学研究和复杂决策等场景中Agent 需在长程条件下连续决策任何一步失误都可能影响后续任务。过去这类能力往往依赖更大的模型扩展 Agent Horizon 也是一个重要方向但一直面临基础设施不足和异构能力难以统一的问题。针对这些问题上海 AI Lab 团队推出了一个 35B 参数大小的 MoEAgent 模型——Agents - A1试图不靠继续堆参数仅通过扩展 Agent Horizon用更小的模型逼近万亿参数级模型的长程表现。论文链接https://arxiv.org/abs/2606.30616研究结果显示Agents - A1 在多步搜索、科学研究和长指令遵循等部分任务上已经展现出超过部分万亿参数级模型的表现并在 35B 同规模模型中保持领先。不过研究团队也表示Agents - A1 在工程类任务上仍与前沿大模型存在差距。这项研究提出了一种更经济的强大 AI Agent 开发方法教它们养成更持久的、经过验证的工作习惯而不仅仅是扩大它们的参数规模。Agents - A1 是如何设计的Agents - A1 是一个面向长程任务的 35B 参数 MoE Agent 模型。它依托长程知识 - 动作基础设施通过三阶段训练把多种 Agent 能力整合进同一个模型先进行全领域 SFT再专门训练各领域教师最后通过多教师 on - policy distillationOPD完成统一。具体流程如下1.全领域监督微调SFT该阶段旨在建立模型的通用 Agent 能力。研究团队使用多领域、多任务的高质量长程轨迹数据进行训练增强模型在长上下文条件下的理解、推理和指令遵循能力训练中采用 sample packing将多个较短样本拼接到单个训练序列中并配合注意力掩码防止样本间串扰从而减少 padding 开销、提升 GPU 利用率。2.领域级教师模型训练研究团队将模型能力拆分为搜索、科学推理、指令遵循和工具调用四类专长教师分别设计训练方案。-搜索教师采用 “先 SFT、后 RL” 的两阶段训练并结合 GRPO 提升复杂问题拆解、多跳搜索和工具协同能力目标是在保证正确率的同时减少冗余搜索。-科学教师通过两阶段 SFT先强化科学推导能力再通过工具增强轨迹训练外部交互和证据整合能力让模型学会何时借助外部工具并整合检索或计算得到的证据。-指令遵循教师采用两阶段 RL 和 GRPO 训练第一阶段提升格式、长度、关键词和语言等细粒度约束满足能力第二阶段强化长上下文 ICL 中的证据定位、信息整合和上下文规则遵循能力。-工具调用教师采用工具 SFT 与工具 RL 的两阶段优化重点学习何时调用工具、如何纠错以及何时结束任务并结合结果奖励、过程奖励和高质量困难任务复用提升工具使用能力。3.统一模型阶段研究团队先收集学生轨迹再由对应领域教师打分指导。与离线模仿不同教师直接评估学生自身生成的轨迹。最终模型通过按领域路由的蒸馏和显著词汇对齐兼顾全领域 SFT 的广泛能力与各领域教师的专长。为支撑这一训练流程研究团队构建了以知识 - 动作图 KAG 为核心的知识 - 动作基础设施并通过自博弈不断扩展高质量长轨迹数据。这样训练样本不仅包含问题和答案也能完整保留工具使用与验证过程。实验结果整体来看Agents - A1 在长程搜索、指令遵循和科学推理等任务上表现突出不仅领先同规模 35B 模型也在部分基准上超过了部分万亿参数级模型。具体结果如下1.全领域 SFT 结果显示 Agents - A1 - SFT 在长程搜索、工程任务和科学研究等方向上明显提升但在通用 Agent 任务、指令遵循和 HLE 上出现回落。这说明仅靠全领域 SFT 还难以缓解不同推理模式之间的冲突。2.领域教师模型训练-搜索增强教师在四个基准上都稳定优于 Qwen3.5 - 35B - A3B。尤其在通用 AI 助手基准 GAIA 上提升最为明显数值从 59.8 提升到 95.1。-科学增强教师两阶段 SFT 显著增强了教师模型的科学推理和工具交互能力相较基线模型科学增强教师在各项科学任务上整体更优尤其在 FS - R 上实现了从 2.5 到 54.3 的大幅提升。-指令遵循与长上下文学习实验强化学习显著提升了模型的长上下文理解、指令遵循及对可验证指令约束的泛化能力。总体上RL 增强教师在相关评测中优于 Qwen3.5 - 35B - A3B其中 LongBench V2 和 IFBench 的提升尤为明显。-工具调用实验显式工具使用监督与强化学习显著提升了模型的工具调用能力尤其在需要多轮、结构化交互的任务中效果更明显具体而言工具增强模型在 τ² - Bench 和 VitaBench 上均取得了显著提升。-统一模型实验结果表明多教师 OPD 较单纯的全领域 SFT 更能缓解不同任务推理模式之间的冲突在保留广泛能力覆盖的同时更好地整合各领域专长并进一步提升长程任务表现。案例展示除标准基准外研究团队还通过两个案例展示了 Agents - A1 的长程 Agent 能力。-鲸鱼叫声检测任务Agents - A1 已经能够在较长时间跨度内持续优化完整机器学习流程。模型在一次 12 小时运行中从简单 CNN 基线出发将验证集 AUC 从 0.58 提升至 0.9935。这表明Agents - A1 已超越局部调参具备在多轮迭代中持续改进方案并提升泛化能力的能力。-地球科学任务以 2008 年热带气旋 Nargis 为例模型能够自动识别数据源并完成数据提取、清洗、派生指标计算、可视化和结果综合形成从规划到报告生成的多阶段闭环同时较高保真度地重建了风暴演化过程。不足和未来方向尽管 Agents - A1 在多项长程任务上表现较强但仍存在一些不足。首先模型在 “先规划再推理”“先反思再行动”、长上下文关键信息总结和重要历史信息识别等基础原子能力上仍有提升空间这些能力会直接影响长程任务中的稳定性、目标一致性与执行效率。未来需要重点强化这些基础能力并以此进一步提升 Agents - A1 的长过程求解能力。其次在机器学习工程任务上Agents - A1 与更大模型之间仍有明显差距。未来如何增强模型在完整工程流程中的目标一致性、决策记忆与试验效率仍是一个重要研究方向。最后经过 OPD 训练的统一学生模型并不能在所有领域都稳定超过对应的教师模型。未来如何在模型统一性与领域专长之间取得更好平衡仍是后续需要解决的问题。更多技术细节详见原论文。

相关新闻

Spring Boot实现高效图片上传功能实战指南

Spring Boot实现高效图片上传功能实战指南

1. 项目概述图片上传功能是Web开发中最基础也最常用的功能之一。无论是社交平台的头像设置、电商网站的商品展示,还是内容管理系统的富文本编辑,都离不开这个看似简单却暗藏玄机的功能模块。我在过去五年里为不同规模的项目实现过数十种图片上传方案&…

2026/7/3 6:24:09阅读更多 →
APIAuto:零代码接口测试与文档管理一体化平台实战指南

APIAuto:零代码接口测试与文档管理一体化平台实战指南

1. 项目概述:为什么我们需要APIAuto这样的工具?如果你是一名后端开发、前端开发或者测试工程师,每天的工作里肯定少不了和HTTP接口打交道。无论是调试自己写的API,还是对接第三方服务,传统的方式是什么?打开…

2026/7/3 6:24:09阅读更多 →
Path of Building PoE2:5步掌握流放之路2角色构建的终极指南

Path of Building PoE2:5步掌握流放之路2角色构建的终极指南

Path of Building PoE2:5步掌握流放之路2角色构建的终极指南 【免费下载链接】PathOfBuilding-PoE2 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding-PoE2 你是否在《流放之路2》中花费数小时打造角色,却发现伤害输出远不如预…

2026/7/3 6:19:09阅读更多 →
替换算法、虚拟存储器、TLB、RAID

替换算法、虚拟存储器、TLB、RAID

1、需要替换算法的原因1.2、4种常见的替换算法1.2.1、先进先出法——FIFO(First in First out)1.2.2、最不经常使用法——LFU(Least Frequently Used )1.2.3、近期最少使用法——LRU(Least recently used)1…

2026/7/3 7:29:15阅读更多 →
璞华易捷:让 AI 进入工业现场,让设备交付与节能优化真正落地

璞华易捷:让 AI 进入工业现场,让设备交付与节能优化真正落地

在 3C、半导体、非标自动化、工业热工、洁净室、供热等领域,企业一方面面临设备软件交付复杂、工程师紧缺、售后维护压力大的问题;另一方面,也在持续承受能耗高、运行参数依赖人工、节能效果难验证等挑战。传统的工业现场建设,往往…

2026/7/3 7:29:15阅读更多 →
云音乐歌词下载终极指南:3步轻松获取网易云和QQ音乐完美歌词

云音乐歌词下载终极指南:3步轻松获取网易云和QQ音乐完美歌词

云音乐歌词下载终极指南:3步轻松获取网易云和QQ音乐完美歌词 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为喜欢的歌曲找不到歌词而烦恼吗&#xff1f…

2026/7/3 7:29:15阅读更多 →
豆包2.0一键生成144张图:高质量批量图像生成新范式

豆包2.0一键生成144张图:高质量批量图像生成新范式

1. 项目概述:一场被低估的图像生成范式转移“再见了,即梦!豆包2.0一键生成144张图,还免费!”——这个标题不是营销号的夸张话术,而是我上周在真实工作流中反复验证后写下的实测结论。作为一名从2018年就开始…

2026/7/3 7:29:15阅读更多 →
Deepseek V4双轨模型:Pro与Flash的场景化部署范式

Deepseek V4双轨模型:Pro与Flash的场景化部署范式

1. 这不是产品线断层,而是模型部署逻辑的范式升级最近Deepseek V4发布时,不少老用户第一反应是:怎么跳过了“标准版”?V3还有Dense、MoE两个主力型号,V4直接上Pro和Flash——一个强调极致性能,一个主打超低…

2026/7/3 7:29:15阅读更多 →
M1 Max本地AI实测:qwen3.5:4b与gemma4:latest长期驻留稳定性对比

M1 Max本地AI实测:qwen3.5:4b与gemma4:latest长期驻留稳定性对比

1. 项目概述:这不是跑分,是真实工作流下的“耐力测试”在 M1 Max 32GB 这台被很多人当作“本地AI工作站”的设备上,我连续三个月每天用它处理实际任务——写技术文档、润色会议纪要、生成代码注释、辅助调试报错信息、甚至临时充当轻量级知识…

2026/7/3 7:24:14阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 12:10:34阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/2 12:10:34阅读更多 →
LV3296与PIC18F45K22的UART通信与USB扩展方案

LV3296与PIC18F45K22的UART通信与USB扩展方案

1. LV3296与PIC18F45K22的硬件搭档解析在嵌入式数据采集系统中,LV3296条形码扫描模块与PIC18F45K22微控制器的组合堪称经典搭配。LV3296作为一款工业级条码扫描头,其核心是一颗高性能CMOS图像传感器,配合专用解码芯片,能自动识别包…

2026/7/3 0:03:41阅读更多 →
AI初创生存指南:6个月完成可信度验证闭环

AI初创生存指南:6个月完成可信度验证闭环

1. 这不是“逆袭指南”,而是一份AI初创公司真实生存手记“How To Beat Odds As an AI Startup?”——这个标题乍看像一句热血口号,但在我带过7个从0到1的AI产品团队、亲手踩过融资失败、技术债崩盘、客户POC卡在最后一公里等23类典型坑之后,…

2026/7/3 0:03:41阅读更多 →
多模态+推理链+RAG 2.0+智能体:工业级AI系统落地四支柱

多模态+推理链+RAG 2.0+智能体:工业级AI系统落地四支柱

1. 这不是又一篇“AI趋势速览”,而是一份实操者手记:当多模态、推理链、检索增强与智能体协作真正撞进工程现场“LAI #73”这个编号本身就像一个暗号——它不属于某家大厂的白皮书,也不是学术会议的议程表,而是长期泡在模型训练集…

2026/7/3 0:03:41阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/3 1:12:46阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/3 1:36:36阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/3 2:08:15阅读更多 →