曾被顶会拒稿的PPO算法,如今成大模型后训练绕不开的基础算法!
【导语PPO算法作为后来在RLHF和大模型训练中被广泛使用的经典算法曾被NIPS 2017拒之门外。而AI史上不少后来被证明影响深远的工作都曾在最初投稿时被顶会拒稿时间才是最严格、也最公平的评审。】PPO算法从被拒到走向更大舞台PPOProximal Policy Optimization这个经典算法最早在2017年7月发布的论文当时看起来只是一个更简单、更工程友好的策略优化算法。它的目标是在保留TRPO稳定性的同时降低实现复杂度让强化学习训练更好调、更实用。但当年却被NIPS 2017拒之门外最近由PPO作者John Schulman本人提起此事。几年之后真正把PPO推向更大舞台的不是Atari、机器人控制这些传统强化学习任务而是大语言模型。从RLHF到今天的RLVRPPO成了大模型后训练里绕不开的基础算法之一。按照Schulman的说法PPO在LLM时代迎来第二波热潮原因甚至超出了原论文当年的预期。PPO被拒原因创新性有限、提升不明显Schulman后来给出PPO被拒的解释是这篇论文在当时被认为创新性有限相比已有基线方法的提升也不够明显。有网友评论这背后折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性以及在小规模、受控实验环境下相对基线的提升而真实世界更在意的是方法能不能扩展到更大规模能不能在复杂系统里保持稳定能不能真正跑得起来。时间检验AI史上被拒稿的深远影响工作其实不止PPOAI史上不少后来被证明影响深远的工作都曾在最初投稿时被顶会拒之门外。比如LSTM在1996年被NIPS拒稿当时被认为过于复杂、缺乏生物学合理性但后来成为语音识别、机器翻译等序列建模任务的核心技术。SIFT曾被ICCV 1997、CVPR 1998拒稿原因是工程步骤繁琐、不够优雅但它后来统治前深度学习时代的计算机视觉十多年。Dropout在2012年被NIPS拒稿被认为像工程hack、理论解释不够严谨但它后来成为深度神经网络最重要的正则化方法之一并获得NeurIPS时间检验奖。编辑观点PPO等算法的经历表明学术评价与产业需求存在差异时间会证明技术的真正价值不应仅以学术评审的一时结果来评判技术的潜力。

相关新闻

用DigitalOcean DNS绑定Gmail实现域名邮箱零成本托管

用DigitalOcean DNS绑定Gmail实现域名邮箱零成本托管

1. 项目概述:用自家域名收发邮件,为什么非得绕过Gmail原生设置走DigitalOcean这条路?“用我的域名xxx.com收发邮件,但后端完全托管给Gmail”——这是中小团队、自由职业者和独立开发者最常提的需求。它听起来简单:我有…

2026/6/22 9:42:37阅读更多 →
Codex 实战 Skills:用 Skill 自动抓取 20 个 RSS 订阅,并用 AI 自动输出中文摘要

Codex 实战 Skills:用 Skill 自动抓取 20 个 RSS 订阅,并用 AI 自动输出中文摘要

Codex 实战 Skills:用 Skill 自动抓取 20 个 RSS 订阅,并用 AI 自动输出中文摘要 在信息爆炸的时代,我们面临的不再是信息匮乏,而是注意力过载。对于开发者而言,如何从海量的 RSS 源中精准提取高价值内容,并将其转化为结构化的中文摘要,是一个极具实战意义的工程挑战。…

2026/6/22 9:42:37阅读更多 →
Godot Engine采用分层架构设计

Godot Engine采用分层架构设计

Godot Engine采用分层架构设计,官方文档提供了从核心组件到底层驱动的整体架构示意图,清晰展示各模块的层级关系与核心职责。一、核心四层架构Godot的引擎主体从底层到上层分为四个核心层级,各层职责明确且依赖关系清晰:‌Core&am…

2026/6/22 9:37:34阅读更多 →
知识图谱如何重构RAG:从向量匹配到路径推理

知识图谱如何重构RAG:从向量匹配到路径推理

1. 项目概述:当向量检索撞上知识图谱,Gradient如何重构RAG的底层逻辑“Beyond Vectors”这个标题不是修辞,是技术演进的真实切口。过去两年里,我亲手搭过27个RAG系统——从用LangChainChroma跑通第一个PDF问答,到在金融…

2026/6/22 10:58:07阅读更多 →
智能网联汽车安全实战:从CAN总线到车载以太网的渗透测试与防御

智能网联汽车安全实战:从CAN总线到车载以太网的渗透测试与防御

1. 项目概述:为什么我们需要关注智能网联汽车的“软肋”?几年前,当我第一次把测试电脑接到一辆新车的OBD-II接口上,用简单的工具发送了一条CAN报文,成功让雨刮器无端启动时,车里的工程师脸色都变了。那一刻…

2026/6/22 10:58:07阅读更多 →
网易云音乐无损FLAC下载终极指南:快速构建个人高品质音乐库

网易云音乐无损FLAC下载终极指南:快速构建个人高品质音乐库

网易云音乐无损FLAC下载终极指南:快速构建个人高品质音乐库 【免费下载链接】NeteaseCloudMusicFlac 根据网易云音乐的歌单, 下载flac无损音乐到本地.。 项目地址: https://gitcode.com/gh_mirrors/nete/NeteaseCloudMusicFlac 还在为网易云音乐歌单无法永久…

2026/6/22 10:58:07阅读更多 →
Java任意文件读取与下载漏洞:原理、审计与修复实战

Java任意文件读取与下载漏洞:原理、审计与修复实战

1. 项目概述:从“任意文件读取”到“任意文件下载”的审计视角在Java应用安全审计的日常工作中,任意文件读取和任意文件下载漏洞是两类高频出现且危害巨大的安全问题。很多刚入行的朋友可能会混淆,觉得这不就是一回事吗?不都是读文…

2026/6/22 10:58:07阅读更多 →
掌握COMSOL Python控制:5个高级实战技巧实现自动化仿真

掌握COMSOL Python控制:5个高级实战技巧实现自动化仿真

掌握COMSOL Python控制:5个高级实战技巧实现自动化仿真 【免费下载链接】MPh Pythonic scripting interface for Comsol Multiphysics 项目地址: https://gitcode.com/gh_mirrors/mp/MPh 在工程仿真领域,COMSOL Multiphysics是处理复杂多物理场问…

2026/6/22 10:58:07阅读更多 →
AI产品原型工具有哪些?2026最新推荐

AI产品原型工具有哪些?2026最新推荐

产品经理经常遇到一个棘手的问题:想法在脑子里很清晰,但用传统工具从草图到交互原型再到代码交付,需要经过设计师、前端工程师多个环节,往往消耗大量时间和沟通成本。更糟的是,多次转手后最终交付物与最初的想法已经相…

2026/6/22 10:53:06阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/22 6:01:42阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/22 1:15:34阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/22 5:42:46阅读更多 →
Codex本地AI编码代理与CC Switch协议适配实战

Codex本地AI编码代理与CC Switch协议适配实战

1. Codex不是“另一个VS Code插件”,而是本地AI编码代理的临界点Codex这个名字,现在被太多人误读了。它不是ChatGPT那个早已停更的旧模型代号,也不是某个新出的VS Code扩展图标——它是2024年中后期悄然浮出水面的一类本地化AI编码代理&#…

2026/6/22 0:04:18阅读更多 →
从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

1. 项目概述:当8位MCU遇到性能瓶颈,我们如何优雅升级?在嵌入式开发领域,尤其是电池供电的便携式设备、工业传感器节点或智能家居终端中,我们常常面临一个经典的两难选择:是选择功耗极低但性能有限的8位微控…

2026/6/22 0:04:18阅读更多 →
大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

1. 项目缘起:当大语言模型“看”不懂空间 最近在折腾大语言模型(LLM)的各种应用时,我发现一个挺有意思的现象:你让模型写首诗、写代码、甚至做逻辑推理,它可能都表现得有模有样。但一旦涉及到需要理解“空间…

2026/6/22 0:04:18阅读更多 →