06-30 · LLM 最新论文速览-拓冰网站优化

今日候选池100篇硬过滤 LLM 打分后通过评估27篇精选 Top-10另列 17 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易精选1.MOPDMOPD: Multi-Teacher On-Policy Distillation for Capability Integration in LLM Post-Training评分9.0·方向cs.CL · Computation and Language ·arxiv2606.30406· PDF MOPD 用多领域 RL teacher 的 on-policy distillation把多个能力蒸馏进 Qwen3-30B-A3B student。LLM后训练RL能力蒸馏摘要本文针对 LLM 后训练中多能力整合困难的问题提出 Multi-teacher On-Policy DistillationMOPD。方法先为各领域训练专门 RL teacher再基于 student 自身 rollouts 进行蒸馏从而减少 exposure bias并提供更密集的优化信号。在 Qwen3-30B-A3B 上MOPD 优于 Mix-RL、Cascade RL、Off-Policy Finetune 和 Param-Merge几乎完整继承各 teacher 能力并已用于 MiMo-V2-Flash 的工业级后训练。评分细项rel 9.5 / nov 8.0 / prac 9.0 / author 8.02.AgentsA1Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent评分8.9·方向cs.CL · Computation and Language ·arxiv2606.30616· PDF Agents-A1用45K长轨迹SFT、多教师域路由蒸馏训练35B MoE智能体模型。多智能体后训练SFT蒸馏长程智能体摘要本文提出 Agents-A1一个 35B MoE agentic model通过扩展 agent horizon 而非参数规模达到接近万亿参数模型的表现。作者构建长程知识-行动基础设施生成平均 45K tokens 的轨迹并采用三阶段训练全域 SFT、领域 teacher 训练、多 teacher 按领域路由的 on-policy distillation。Agents-A1 在 SEAL-0、IFBench、HiPhO 等长程 agent benchmark 上领先或具竞争力为 35B agent 扩展长程能力提供了实践路径。评分细项rel 9.5 / nov 8.5 / prac 8.5 / author 7.03.TACOTACO: Tool-Augmented Credit Optimization for Agentic Tool Use评分8.5·方向cs.MA · Multiagent Systems ·arxiv2606.30251· PDF TACO 用 DAPR 探针奖励和 GRPO 双优势通道为代码工具调用分配自监督信用。AgentRLGRPO工具调用摘要TACO 面向使用代码工具的多模态 agent解决工具调用有用、冗余或误导时难以精确信用分配的问题。它在 GRPO 中引入两条优势信号DAPR 通过插入 probe token 比较有无工具时答案奖励差异无需外部 judgeOGAR 则按最终结果把奖励路由到负责片段抑制无效调用。该方法提升细粒度视觉问答中的工具使用效率与可靠性。评分细项rel 9.2 / nov 8.0 / prac 8.0 / author 6.04.MoDMixture of Debaters: Learn to Debate at Architectural Level in Multi-Agent Reasoning评分8.5·方向cs.MA · Multiagent Systems ·arxiv2606.29425· PDF MoD 用双路由与动量切换把多智能体辩论压进 MoE 单模型降低推理开销。多智能体MoE推理加速摘要MoD 针对多智能体辩论框架架构固定、需复制多个模型导致开销高的问题将自辩论机制融入单模型 Mixture-of-Experts。其关键包括双路由以动态分配辩论与综合流程、momentum switching 减少 token 级专家切换抖动以及用轻量专家表示不同辩论角色。多模态基准实验显示MoD 优于单模型和传统多智能体方法延迟降低 3.7 倍token 消耗减少 87%。评分细项rel 9.0 / nov 8.0 / prac 8.5 / author 7.05.FlashMorphMorphing into Hybrid Attention Models评分8.2·方向cs.CL · Computation and Language ·arxiv2606.30562· PDF FlashMorph把混合注意力层选择建模为预算子集优化用门控学习替换全注意力层。长上下文注意力机制推理加速线性注意力摘要混合注意力模型通过保留少量 full-attention 层、将其余层替换为 linear attention 来提升长上下文效率但层选择常依赖启发式。本文将其建模为预算约束的子集优化提出 FlashMorph为每层加入线性注意力分支冻结权重在合成长上下文检索数据上联合学习门控并用正则鼓励线性化再按预算离散化并蒸馏、微调。实验表明其能找到更优混合结构保持长上下文召回与泛化能力。评分细项rel 8.5 / nov 8.0 / prac 8.0 / author 7.56.DOPDDOPD: Dual On-policy Distillation评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2606.30626· PDF DOPD 按 advantage gap 与相对概率在 privileged teacher/student 间路由 token 级蒸馏。后训练知识蒸馏On-policy摘要On-policy distillation 用学生采样轨迹和 token 级监督提升能力迁移但引入 privileged information 可能造成“privilege illusion”学生只能模仿信息不对称带来的表象无法真正复制能力。DOPD 提出优势感知的双重蒸馏根据 privileged teacher 与 privileged student 的 advantage gap 和相对概率动态分配每个 token 的监督来源、强度与目标。LLM 与 VLM 实验显示DOPD 稳定优于 Vanilla OPD 及其他方法并在鲁棒性、持续学习等方面表现更好。评分细项rel 9.0 / nov 8.0 / prac 8.0 / author 6.07.WorldEvolverSelf-Evolving World Models for LLM Agent Planning评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2606.30639· PDF WorldEvolver 用情景记忆、语义记忆与选择性 foresight 做 LLM agent 测试时世界模型修订。LLM Agent世界模型测试时适应摘要WorldEvolver旨在提升长程 LLM agent 的规划前瞻性同时避免不可靠预测误导决策。该框架在冻结下游 agent 和参数的情况下于测试时自我修正上下文结合 Episodic Memory、Semantic Memory 与 Selective Foresight利用真实转移、启发规则和置信度过滤改进世界模型。ALFWorld、ScienceWorld 实验显示其在多种 backbone 上预测精度最高并提升 AgentBoard 成功率证明测试时记忆修订能同时增强预测与规划。评分细项rel 8.5 / nov 7.5 / prac 8.0 / author 6.08.COHORTCOHORT: Collaborative Orchestration for Hardening via Offensive Replay on Emulated Topologies评分8.0·方向cs.MA · Multiagent Systems ·arxiv2606.30479· PDF COHORT用多角色LLM在GNS3中生成设备命令并用offensive replay验证缓解效果。多智能体LLM工作流网络安全仿真验证摘要COHORT面向企业网络中针对已观测攻击者的自动化缓解生成减少依赖专家和生产网试错。它采用角色分解的多 agent LLM 流程在运行真实厂商固件的 GNS3 高保真仿真拓扑中提出、下发并迭代真实设备命令通过 offensive replay 复现原攻击对比缓解前后效果并加入连通性回归与累积评估。三类拓扑、四种攻击实验中46.7% 缓解既阻断攻击又保持连通性显著优于基线。评分细项rel 8.5 / nov 7.5 / prac 8.5 / author 5.09.MASLabMAS-Lab: A Specification-Driven Validation Framework for Reliable Multi-Agent Systems评分7.9·方向cs.MA · Multiagent Systems ·arxiv2606.30546· PDF MAS-Lab 用规范驱动框架分离语义意图、编排控制和可复现实验。多智能体Agent工程系统验证摘要MAS-Lab 面向 LLM 多智能体系统从演示原型走向可靠生产的痛点现有开发常将逻辑、编排、观测与控制耦合缺乏系统级验证。该框架以 specification-driven 思路分离语义意图与运行机制包含框架无关的声明式 Spec、提供执行与控制原语的 MAS-OS以及集成观测和评估的 Labs用于支持可复现实验、显式行为控制和全生命周期演进。评分细项rel 8.5 / nov 7.5 / prac 8.0 / author 5.010.PRPBefore Thinking, Learn to Decide: Proactive Routing for Efficient Visual Reasoning评分7.8·方向cs.CL · Computation and Language ·arxiv2606.30217· PDF PRP 通过 DRL 与 JRL 预测 draft/target 能力在视觉推理前提前路由到小模型或大模型。推理加速视觉推理模型路由摘要针对大型多模态模型视觉推理中长 chain-of-thought 导致的高推理成本论文提出 PRP 主动路由范式在生成前判断查询应交给小 draft model 还是大 target model。方法通过 Draft Rating Learning 估计草稿模型置信度并用 Joint Rating Learning 预测目标模型胜任度从而按实例细粒度分配样本在尽量保持性能的同时显著加速多模态推理。评分细项rel 8.0 / nov 7.5 / prac 8.0 / author 6.5 速览 · 其他通过评估的工作17 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.MA7.8ECHO: Learning Epistemically Adaptive Language Agents with Turn-Level Credit· ECHO 将多轮信息搜寻建模为 EDP并用 posterior-sensitive reward 做 turn-level policy gradient。cs.MA7.7Experience Graphs: The Data Foundation for Self-Improving Agents· Trellis把agent轨迹建成experience graph用查询、向量图检索和物化视图复用经验。cs.AI8.0Dynamo: Dynamic Skill-Tool Evolution for Vision-Language Agents· Dynamo 让冻结 VLM 从成败样例生成 reasoning skill 与可执行视觉工具库提升视觉推理准确率。cs.MA7.6Minority Sentinel: When to Overturn Majority Voting in Multi-Agent LLM Debates· Minority Sentinel 从多智能体辩论日志提取 fingerprint用 LightGBM 判断何时推翻多数投票。cs.MA7.6Persona-Trained Monte Carlo: Estimating Market-Outcome Distributions via Swarms of Persona-Conditioned Neural Policy Bots in a Limit Order Book· PTMC 用 persona 条件化神经交易 bot 群在限价订单簿中采样市场结果分布。cs.CL7.2Regime-Aware Peer Specialization for Robust RAG under Heterogeneous Knowledge Conflicts· RAPS-DA 将 RAG 知识冲突分为 Grounding、Arbitration、Resistance并用同尺度 peer 专家路由训练。cs.MA7.1Budgeted Act-or-Defer Multi-Agent LLM Deliberation with Local Reliability Bounds· 用kNN局部置信下界在多轮LLM辩论中决定act-or-defer并约束错误行动预算。cs.CV7.5EcoVideo: Entropy-Orchestrated Video Generation Paradigm in Cloud-Edge Dynamics· EcoVideo 用早期自注意力熵选择关键帧云端 DiT 去噪、边缘插值重建视频。q-fin.TR7.6The Bounce Has No Direction: Sign, Magnitude, and the Microstructure of Equity Return Predictability· 用 Fourier-Residue Identity 将 SPY 滞后自相关分解为符号与幅度通道。cs.CL6.8DAIN: Dynamic Agent-Based Interaction Network for Efficient and Collaborative Multimodal Reasoning· DAIN 用 Meta-Controller 稀疏调度专门交互 agent并压缩通信完成多模态协作推理。cs.AI6.5Clarus: Coordinating Autonomous Research Agents toward Web-Scale Scientific Collaboration· Clarus用项目-智能体-资源对象模型和四层架构协调开放式科学协作流程。cs.CL6.4Efficient Retrieval-Augmented Generation via Token Co-occurrence Graphs· TIGRAG 用 token 共现图、语义扩展和神经重排检索多跳问答证据。cs.MA6.4Hybrid Retriever Evolution for Multimodal Document Reasoning Agents· 用失败驱动meta-agent改写检索指令让文档问答agent逐步选择词法、语义和多模态检索器。cs.AI6.6Entity Binding Failures in Tool-Augmented Agents· 定义工具代理的 entity binding failure并用置信门控、澄清与 provenance tracking 降低错实体操作。cs.CV6.6Orca: The World is in Your Mind· Orca用Next-State-Prediction在视频与事件标注上预训练统一世界潜空间。cs.CL6.0CORTEX: High-Quality Cross-Domain Organization of Web-Scale Corpora through Ontological Corpus Graph· 用本体语料图组织网页语料含质量层、轻量本体层和跨域对齐层。cs.AI6.3BayesEvolve: Explicit Belief States for Autonomous Scientific Discovery· BayesEvolve 为发现代理维护不确定性 belief state并用退火 uncertainty bonus 指导黑盒优化实验。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考

相关新闻

如何快速掌握全面战争模组制作：RPFM终极使用指南

如何快速掌握全面战争模组制作：RPFM终极使用指南【免费下载链接】rpfm Rusted PackFile Manager (RPFM) is a... reimplementation in Rust and Qt6 of PackFile Manager (PFM), one of the best modding tools for Total War Games. 项目地址: https://gitcode.…

2026/7/2 15:20:49阅读更多 →

Simple Runtime Window Editor：让老游戏在新显示器上焕发新生的窗口管理神器

Simple Runtime Window Editor：让老游戏在新显示器上焕发新生的窗口管理神器【免费下载链接】SRWE Simple Runtime Window Editor 项目地址: https://gitcode.com/gh_mirrors/sr/SRWE 你是否遇到过这样的情况：心爱的经典游戏只支持有限的几种分辨…

2026/7/2 15:20:49阅读更多 →

5分钟搭建i茅台自动预约系统：告别手动抢购的终极解决方案

5分钟搭建i茅台自动预约系统：告别手动抢购的终极解决方案【免费下载链接】campus-imaotai i茅台app自动预约，每日自动预约，支持docker一键部署（本项目不提供成品，使用的是已淘汰的算法） 项目地址: https…

2026/7/2 15:20:49阅读更多 →

Inpaint-Web本地部署指南：免费开源的AI图片超分与修复工具

在图像处理与内容创作的日常工作中，我们常常会遇到一些令人头疼的图片问题：从网上下载的图片分辨率太低，放大后模糊不清；精心拍摄的照片上，总有那么几个碍眼的水印、日期戳或是路人甲；老照片历经岁月&#…

2026/7/2 16:41:05阅读更多 →

8周速成大模型实战：从零到算法岗Offer

1. 项目背景与核心价值去年帮学弟修改简历时发现一个现象：超过60%的应届生都在简历上写着"了解机器学习基础"，但问到具体项目经验时却支支吾吾。这让我意识到，传统"3个月入门AI"的学习路径已经跟不上行业需求了。现在大厂…

2026/7/2 16:41:05阅读更多 →

Cookiecutter Data Science项目结构实战指南

1. 项目概述：为什么一个文件夹结构能救你的数据科学项目？我第一次在客户现场看到那个“sales_forecast_v3_final_really_final.ipynb”文件时，手是抖的。不是因为模型效果差，而是因为整个项目里有17个名字带“final”的Jupyter笔记…

2026/7/2 16:41:05阅读更多 →

iOS 15-16设备激活锁绕过终极指南：applera1n工具深度实战

iOS 15-16设备激活锁绕过终极指南：applera1n工具深度实战【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 对于iOS 15-16设备的iCloud激活锁绕过，applera1n提供了一个强大的开源…

2026/7/2 16:41:05阅读更多 →

模板驱动型文档自动化：用结构化模板替代AI生成

1. 项目概述：当文档生成变成“填空题”，而不是“写作文” 你有没有过这种体验：每周一早上，雷打不动地打开Word，复制粘贴上上周的报告模板，改掉日期、客户名、项目编号，再手动调整三处数据图表&a…

2026/7/2 16:41:05阅读更多 →

AI模型集成与智能代理架构实战指南

1. AI模型集成：从基础调用到智能代理架构在当今的AI应用开发中，集成多个大语言模型已成为提升应用智能水平的关键技术。作为一名长期从事AI应用开发的工程师，我将分享如何为Skills（技能应用）构建完整的AI集成方案&…

2026/7/2 16:36:04阅读更多 →

管理者的六个层次

2026/7/2 12:10:35阅读更多 →

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 12:10:34阅读更多 →

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

引言：审计结束三个月了，审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间，内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中，审计…

2026/7/2 12:10:34阅读更多 →

塞尔达传说旷野之息存档修改器：3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器：3分钟掌握海拉鲁世界自由定制技巧【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI 想在《塞尔达传说：旷野之息…

2026/7/2 0:03:01阅读更多 →

告别 AccessKey：多云平台 CLI OAuth 免密认证完全指南

在本地开发环境使用云厂商 CLI 时，传统的 AccessKey（AK）方式需要手动创建、下载和保管密钥，不仅繁琐，还存在泄漏风险。其实，主流云平台都已提供基于 OAuth 2.0 的免密认证方案，让开发者可以通过浏览器登录一次性完成授权，CLI 自动管理临时凭证的刷新，兼顾了便利与安全…

2026/7/2 0:03:01阅读更多 →

基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

1. 项目背景与核心价值在嵌入式系统开发领域，高精度定位与导航一直是极具挑战性的技术方向。传统方案往往面临成本、精度和实时性难以兼顾的困境。这个项目通过13DOF（13自由度）传感器组合与PIC32MZ2048EFH100高性能MCU的协同工作，…

2026/7/2 0:03:01阅读更多 →

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时，发现推理速度只有可怜的 1-2 FPS，而别人的演示视频却能跑到 30 FPS 以上，那么问题很可能不在模型本身，而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后，会直接使用官方示例…

2026/7/2 0:33:58阅读更多 →

Coze与Dify对比指南：低代码AI应用开发从入门到实战

1. 从零到一：为什么你需要了解 Coze 和 Dify？如果你对 AI 应用开发感兴趣，但一看到“大模型”、“智能体”、“工作流”这些词就头疼，觉得门槛太高，那这篇文章就是为你准备的。很多开发者，包括我自己&#…

2026/7/2 1:32:11阅读更多 →

AI生图工具怎么选？2026年6月版实测对比

做自媒体的朋友应该都有体会：配图一直是个让人头疼的问题。2026年，AI生图工具已经非常成熟了，但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1：速度之王2026年6月11日&#xff0c…

2026/7/2 1:50:13阅读更多 →