模型说“90%确定”时,它真的对吗?
——大语言模型置信度校准的秘密如果一个模型预测胜率60%的比赛实际只赢了40%那它的“自信”就是虚假的。2025年12月5日苹果公司的研究团队Preetum Nakkiran、Arwen Bradley、Adam Goliński等发表了一项重要研究——《基于词元训练基于概念校准大语言模型中语义校准的涌现》。这项研究的核心发现是基础大语言模型在开放域问答任务中展现出令人惊讶的良好语义校准能力——它们能够有意义地评估自己对开放问题的置信度尽管并未被明确训练去做这件事。一、什么是语义校准在传统的分类问题中校准的概念很清晰如果一个模型对一组输入给出80%的置信度那么这组输入中应该有80%被正确分类。但对大语言模型来说事情变得复杂。当模型生成“巴黎是法国的首都”这样的长文本时我们如何给它一个“置信度”词元级别的概率如每个词被预测的概率无法直接反映整个回答的语义置信度。苹果团队发现基础LLM实际上具备一种“意外”的能力——它们能够评估自己对开放问题的置信度这种能力是作为“下一词元预测”的副产品而涌现的。研究团队提出了一个理论机制来解释这种现象通过将校准与局部损失最优性联系起来并基于语义扰动类定义了广义的校准概念。这个理论还产出了一个可测试的预测当基础LLM能够在生成回答之前轻松预测自己在语义答案类别上的分布时它们就会表现出语义校准。苹果团队指出据他们所知这是首个对LLM中语义校准何时以及为何涌现提供原则性解释的工作。二、三个关键发现苹果团队通过实验验证了理论预测的三个核心 implications发现一基础LLM在问答任务中具有语义校准能力。也就是说未经指令微调的预训练模型虽然“对话能力”不如微调后的模型但在“知道自己的无知”这件事上反而做得更好。发现二RL指令微调会系统性破坏这种校准能力。这意味着我们日常使用的、经过指令微调的对话模型可能比未经微调的基础模型更“不知道自己不知道”。我们“调教”得越多的模型反而可能越过度自信。发现三思维链推理也会破坏校准。让模型“一步一步思考”虽然能提升答案质量但却可能让它对自己的错误答案更加自信。这三个发现揭示了一个深刻的悖论我们用来让AI变得更“有用”的主流技术恰恰在削弱它“承认无知”的能力。三、更广泛的校准危机苹果公司的发现并非孤例。越来越多的研究正在揭示大语言模型的系统性过度自信问题。FermiEval基准的研究发现LLM在构建自身答案的置信区间时表现出系统性过度自信。名义99%的置信区间实际覆盖真实答案的比例平均仅为65%。这意味着模型声称“99%确定”的事情实际上只有大约三分之二是对的。一项2026年2月发表的研究揭示了更惊人的校准差异Kimi K2表现出严重的过度自信期望校准误差ECE高达0.726尽管准确率仅为23.3%Claude Haiku 4.5实现了最佳校准ECE0.122准确率为75.4%研究指出表现较差的模型表现出明显更高的过度自信——这种现象类似于人类认知中的达克效应。越“笨”的模型越“不知道自己笨”。在医学领域一项发表在《npj Gut and Liver》上的研究评估了48个大语言模型在300道胃肠病学委员会考试选择题上的表现发现无论准确率如何所有模型在自我置信度估计方面都表现不佳。即使是最佳校准的系统也表现出显著的过度自信Brier分数0.15-0.2。2026年的另一项研究进一步发现思维链推理预算的增加会系统性地损害校准——分配更多推理时间让模型做更长的思维链反而会让模型对错误答案更加自信。这挑战了“测试时扩展”test-time scaling的主流范式。四、校准为何重要大语言模型正越来越多地被部署在高风险的决策场景中——从医疗到金融。在这些场景中能够知道何时信任模型输出、何时应该交由人类判断至关重要。苹果团队的研究进一步指出校准微调后的模型在多种问答任务上展现出优越的校准性能且不影响准确性。研究者已经开始探索补救方案。2026年的一项研究提出了探针条件化头部干预Probe-Conditioned Head Intervention方法可以有选择地减少口头表达的过度自信同时保护正确回答上的合理自信。另一项研究则通过基于提取式依据的方法将LLM的过度自信降低了高达26%且无需重新训练。五、结语苹果公司的研究揭示了一个耐人寻味的悖论我们越努力“训练”AI让它变得有用它可能越不懂得承认自己的无知。语义校准的研究提醒我们在追求AI“更聪明”的同时也要追求AI“更诚实”。一个知道自己局限的AI比一个盲目自信的AI更值得信赖。正如研究者在论文开篇所问的“LLM‘知道自己不知道什么’吗”这个问题至今还没有令人满意的答案——但至少我们现在有了更好的工具去追问它。*参考文献Nakkiran, P., Bradley, A., Goliński, A., Ndiaye, E., Kirchhof, M. Williamson, S. (2025). Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs. Apple。Epstein, E.L. et al. (2025). LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval。Ghosh, S. et al. (2026). The Dunning-Kruger Effect in Large Language Models。*

相关新闻

三步解锁网页视频自由:猫抓Cat-Catch浏览器扩展使用全攻略

三步解锁网页视频自由:猫抓Cat-Catch浏览器扩展使用全攻略

三步解锁网页视频自由:猫抓Cat-Catch浏览器扩展使用全攻略 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 还在为无法保存心仪的网络视…

2026/6/18 15:05:54阅读更多 →
Windows 11终极优化指南:如何使用Win11Debloat免费提升系统性能51%

Windows 11终极优化指南:如何使用Win11Debloat免费提升系统性能51%

Windows 11终极优化指南:如何使用Win11Debloat免费提升系统性能51% 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to decl…

2026/6/18 15:05:54阅读更多 →
华硕笔记本终极性能优化指南:G-Helper完全使用教程

华硕笔记本终极性能优化指南:G-Helper完全使用教程

华硕笔记本终极性能优化指南:G-Helper完全使用教程 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Exper…

2026/6/18 15:00:54阅读更多 →
HarmonyOS 6.1.1 网络加速与企业数据防护:Network Boost 和 DataGuard 怎么设计?

HarmonyOS 6.1.1 网络加速与企业数据防护:Network Boost 和 DataGuard 怎么设计?

摘要本文围绕 HarmonyOS 6.1.1(API 24) 中的 Network Boost Kit 与 Enterprise DataGuard Kit,讨论企业级应用如何同时做好网络体验和数据安全。文章以医护移动查房和企业办公为例,讲解网络策略分级、弱网队列、企业数据分类、放通列表、HDC 鉴权、日志脱…

2026/6/18 16:06:17阅读更多 →
Steamless终极指南:如何完整移除SteamStub DRM保护

Steamless终极指南:如何完整移除SteamStub DRM保护

Steamless终极指南:如何完整移除SteamStub DRM保护 【免费下载链接】Steamless Steamless is a DRM remover of the SteamStub variants. The goal of Steamless is to make a single solution for unpacking all Steam DRM-packed files. Steamless aims to suppor…

2026/6/18 16:06:17阅读更多 →
5分钟搞定Chromedriver:Selenium自动化测试环境配置与版本冲突解决

5分钟搞定Chromedriver:Selenium自动化测试环境配置与版本冲突解决

1. 项目概述:为什么说搞定Chromedriver是自动化测试的“第一道坎”?如果你刚开始接触Python做Web自动化测试,或者被Selenium折腾得够呛,那你大概率已经和Chromedriver打过交道了。这东西看起来就是个小小的驱动程序,但…

2026/6/18 16:06:17阅读更多 →
Streamlit轻量级车牌识别Web应用实战

Streamlit轻量级车牌识别Web应用实战

1. 项目概述:这不是一个“玩具级”车牌识别Demo,而是一套可直接嵌入业务流程的轻量级OCR应用 你有没有遇到过这样的场景:停车场管理方想快速验证车辆进出记录,但买不起动辄几十万的商用识别系统;社区物业需要临时搭建一…

2026/6/18 16:06:17阅读更多 →
嵌入式MMU原理与MPC801内存管理实战解析

嵌入式MMU原理与MPC801内存管理实战解析

1. MPC801内存管理单元:从硬件视角理解嵌入式虚拟内存在嵌入式系统开发,尤其是涉及复杂应用或多任务环境的场景里,内存管理单元(MMU)是一个绕不开的核心硬件。它远不止是一个简单的地址翻译器,更是系统稳定…

2026/6/18 16:06:17阅读更多 →
emWin Flex皮肤系统深度解析:从结构体到主题管理的嵌入式GUI定制实战

emWin Flex皮肤系统深度解析:从结构体到主题管理的嵌入式GUI定制实战

1. 项目概述与核心价值在嵌入式GUI开发领域,尤其是资源受限的MCU平台上,界面的美观度和交互体验往往与产品竞争力直接挂钩。很多开发者都曾面临这样的困境:使用原生控件,界面显得千篇一律,缺乏品牌特色;而想…

2026/6/18 16:01:15阅读更多 →
ZigBee HA智能家居开发实战:从集群模型到NXP JN516x代码实现

ZigBee HA智能家居开发实战:从集群模型到NXP JN516x代码实现

1. ZigBee HA:智能家居的“通用语言”与开发基石如果你正在或计划踏入智能家居设备开发领域,尤其是基于ZigBee协议,那么“ZigBee Home Automation”这个名词你一定不陌生。它不仅仅是ZigBee联盟定义的一套应用层规范,更是确保不同…

2026/6/18 0:00:24阅读更多 →
Java毕设选题推荐:基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

Java毕设选题推荐:基于 Spring Boot 的个人随笔博客运维管理系统的设计与实现 基于 Spring Boot 的用户原创博客分享社区【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/6/18 0:00:24阅读更多 →
JN517x嵌入式开发实战:看门狗、脉冲计数器与I2C接口的深度解析与避坑指南

JN517x嵌入式开发实战:看门狗、脉冲计数器与I2C接口的深度解析与避坑指南

1. 项目概述在嵌入式开发领域,尤其是基于NXP JN517x这类无线微控制器的项目中,系统稳定性和与外设的可靠交互是两大核心挑战。前者关乎产品能否在无人值守的复杂环境中长期运行,后者则决定了设备能否准确感知世界并与其他芯片“对话”。JN517…

2026/6/18 0:00:24阅读更多 →