OpenAI新研究:仅5%“有益”数据让AI跨领域对齐能力提升,还更难被带坏!
只需5%的“有益”数据评估全面翻盘OpenAI定义15种“有益行为特质”在12个领域设计合成对话场景用5%“有益特质”训练数据混入95%常规强化学习数据训练模型。模型在分布内评估表现从0.406提升到0.607提升49%在独立评估中多项指标提升如DeceptionBench、MASK等提升谄媚降低有害Agent行为减少。只教一科全科都好了OpenAI做极端变体实验限定有益特质数据只保留健康领域场景拿去做非健康领域对齐评估19个评估中17个提升命中率89.5%均值提升11.3个百分点中位数12.6个百分点。还做反方向对照实验去掉健康和科学数据10项健康和心理健康评估全部提升。不是规则是人格OpenAI假说对齐行为由少数高层“特质”驱动主成分分析显示第一主成分解释28.2%方差。这与Anthropic“人格选择模型”不谋而合强化学习改变的是人格“权重”。OpenAI同事发现激活“有用助手”相关内部特征可恢复模型对齐。坏行为会传染好行为也会2025年2月Betley等人微调GPT - 4o写不安全代码模型出现广泛错位行为几乎同时Anthropic的MacDiarmid等人发现模型学会奖励黑客后泛化出恶意行为。OpenAI受启发研究好行为能否跨域泛化结果证明可以但用“通用帮助性”做对照实验未复现对齐泛化效果。通向ASI的隐藏变量对齐领域难题是无法穷举所有场景教AI做事这篇论文提出强化正确特质可让模型泛化到所有场景。OpenAI极端对抗实验显示有益特质训练过的模型更难被带坏。在AI自己训练AI时代抵抗偏移的对齐方案很重要该论文或许回答了对齐能否scale的问题。

相关新闻

从零开始:如何把一个玩具项目做成靠谱的开源库

从零开始:如何把一个玩具项目做成靠谱的开源库

从零开始:如何把一个玩具项目做成靠谱的开源库 把私人项目变成开源项目,听起来简单,做起来麻烦。对习惯了写业务代码的全栈开发来说,最难的不是算法,而是怎么把发布流程、测试和文档都安排得明明白白,让别人…

2026/6/22 16:16:31阅读更多 →
Ubuntu 18.04 部署生产级 MinIO 对象存储实战指南

Ubuntu 18.04 部署生产级 MinIO 对象存储实战指南

1. 为什么在 Ubuntu 18.04 上亲手搭一个 MinIO 对多数人仍是刚需 MinIO 不是另一个“又一个对象存储”,它是少数几个真正把「云原生对象存储」从概念拉进中小团队日常运维现实里的工具。我见过太多项目,前期用 AWS S3 或阿里云 OSS,开发测试…

2026/6/22 16:16:31阅读更多 →
Ubuntu 18.04 部署 code-server 云 IDE 实战指南

Ubuntu 18.04 部署 code-server 云 IDE 实战指南

1. 项目概述:在 Ubuntu 18.04 上部署一个真正可用的云端代码编辑器你有没有过这样的经历:临时需要改一段 Python 脚本,但手边只有公司配的 Windows 笔记本,没有装 VS Code 插件,连 SSH 连接都得翻三层跳板机&#xff1…

2026/6/22 16:16:31阅读更多 →
接口自动化测试进阶:从pytest框架到CI/CD集成的工程化实践

接口自动化测试进阶:从pytest框架到CI/CD集成的工程化实践

1. 从“能跑”到“好用”:接口自动化脚本的质变之路干了这么多年测试,尤其是接口自动化这块,我见过太多“一次性”脚本了。它们往往长这样:开发同学为了应付某个紧急需求,临时写个Python文件,里面硬编码几个…

2026/6/22 17:47:46阅读更多 →
Kazumi追番神器:3分钟打造专属动漫资源库,跨平台免费追番指南

Kazumi追番神器:3分钟打造专属动漫资源库,跨平台免费追番指南

Kazumi追番神器:3分钟打造专属动漫资源库,跨平台免费追番指南 【免费下载链接】Kazumi 基于自定义规则的番剧采集APP,支持流媒体在线观看,支持弹幕,支持实时超分辨率。 项目地址: https://gitcode.com/gh_mirrors/ka…

2026/6/22 17:47:46阅读更多 →
OpenCode AI编程助手技术适配决策框架:从工具选择到开发范式重塑

OpenCode AI编程助手技术适配决策框架:从工具选择到开发范式重塑

OpenCode AI编程助手技术适配决策框架:从工具选择到开发范式重塑 【免费下载链接】opencode The open source coding agent. 项目地址: https://gitcode.com/GitHub_Trending/openc/opencode 在AI技术深度渗透软件开发全流程的今天,技术决策者面临…

2026/6/22 17:47:46阅读更多 →
三步完成AI 3D生成:Hunyuan3D-2本地部署终极指南

三步完成AI 3D生成:Hunyuan3D-2本地部署终极指南

三步完成AI 3D生成:Hunyuan3D-2本地部署终极指南 【免费下载链接】Hunyuan3D-2 High-Resolution 3D Assets Generation with Large Scale Hunyuan3D Diffusion Models. 项目地址: https://gitcode.com/GitHub_Trending/hu/Hunyuan3D-2 你是否曾梦想过将简单的…

2026/6/22 17:47:46阅读更多 →
如何在98秒内转录2.5小时音频?Insanely Fast Whisper性能优化实战

如何在98秒内转录2.5小时音频?Insanely Fast Whisper性能优化实战

如何在98秒内转录2.5小时音频?Insanely Fast Whisper性能优化实战 【免费下载链接】insanely-fast-whisper 项目地址: https://gitcode.com/GitHub_Trending/in/insanely-fast-whisper 面对海量音频转录需求,传统语音识别工具往往成为效率瓶颈。…

2026/6/22 17:47:46阅读更多 →
如何让每首音乐都拥有完美的歌词?MusicLyricApp 一站式解决方案

如何让每首音乐都拥有完美的歌词?MusicLyricApp 一站式解决方案

如何让每首音乐都拥有完美的歌词?MusicLyricApp 一站式解决方案 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为找不到准确歌词而烦恼吗?Mu…

2026/6/22 17:42:44阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/22 6:01:42阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/22 1:15:34阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/22 5:42:46阅读更多 →
Codex本地AI编码代理与CC Switch协议适配实战

Codex本地AI编码代理与CC Switch协议适配实战

1. Codex不是“另一个VS Code插件”,而是本地AI编码代理的临界点Codex这个名字,现在被太多人误读了。它不是ChatGPT那个早已停更的旧模型代号,也不是某个新出的VS Code扩展图标——它是2024年中后期悄然浮出水面的一类本地化AI编码代理&#…

2026/6/22 0:04:18阅读更多 →
从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

1. 项目概述:当8位MCU遇到性能瓶颈,我们如何优雅升级?在嵌入式开发领域,尤其是电池供电的便携式设备、工业传感器节点或智能家居终端中,我们常常面临一个经典的两难选择:是选择功耗极低但性能有限的8位微控…

2026/6/22 0:04:18阅读更多 →
大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

1. 项目缘起:当大语言模型“看”不懂空间 最近在折腾大语言模型(LLM)的各种应用时,我发现一个挺有意思的现象:你让模型写首诗、写代码、甚至做逻辑推理,它可能都表现得有模有样。但一旦涉及到需要理解“空间…

2026/6/22 0:04:18阅读更多 →