大语言模型在幽默理解上的系统性偏差研究
1. 当AI遇上黑色幽默从Cards Against Humanity看LLM的幽默困境最近在玩一个有趣的实验让五个最先进的大语言模型GPT-5.2、Gemini 3 Flash、Claude Opus 4.5、Grok 4和DeepSeek-V3.2玩美国流行的派对游戏《Cards Against Humanity》反人类卡牌。这个游戏的核心玩法很简单每位玩家手上有十张白色答案卡需要根据黑色问题卡的内容选出最搞笑的搭配。比如黑色卡写着大学四年后我还是不知道如何______可能的白色答案包括和女性说话、自己报税、应对拒绝等。作为长期研究AI与人类认知差异的从业者我发现这个看似简单的游戏实际上是个绝佳的实验场——它完美展现了当前大语言模型在理解人类幽默时存在的系统性偏差。数据显示这些顶尖模型之间的一致性(21-45%)竟然比它们与人类玩家的一致性(13-18%)高出2-3倍更耐人寻味的是所有模型都表现出对特定位置如第三个选项和特定主题如生理笑话的明显偏好而这种偏好与人类玩家的选择模式大相径庭。2. 实验设计与方法论拆解2.1 为什么选择Cards Against Humanity这个看似简单的派对游戏实则是研究幽默机制的理想实验场。与传统的幽默评估方法不同CAH提供了几个独特优势结构化比较每轮游戏固定10个选项消除了开放式回答的评估难题文化嵌入性卡牌内容涵盖政治、性别、种族等敏感话题考验模型的文化理解量化评估可以直接计算模型选择与人类选择的匹配率重复验证通过多轮测试可以检测模型的稳定性我们在实验中使用了来自CAH Lab平台的真实游戏数据包含4,947个有效回合共9,894次测试。为确保数据质量我们排除了反应时间过短10秒可能未认真思考或过长120秒可能已分心的回合。2.2 模型评估框架设计实验的核心是比较五个前沿LLM与人类玩家的选择差异。具体流程如下输入构造将每个游戏回合转化为标准化的提示词包含黑色问题和10个白色选项位置随机化每轮测试两次随机打乱选项顺序以检测位置偏差响应收集要求模型返回其认为最搞笑的选项编号及完整文本数据清洗排除模型无法给出有效选择的回合约3%特别值得注意的是我们采用了模型即评委LLM-as-judge的方法来标注卡牌主题。使用Mixtral 8x7B模型将每张白色卡牌标注1-4个主题标签共15类如身体/体液笑话、性相关内容等这为后续分析模型的内容偏好提供了基础。提示在实际操作中发现直接要求模型选择最搞笑的答案会导致部分模型过度解释其选择理由。最终采用的提示词简化为请直接返回选项编号和完整文本不要解释原因这显著提高了响应的一致性。3. 核心发现LLM的幽默偏差图谱3.1 人机对齐的局限性所有测试模型的表现都超过了随机选择的基线水平10%但最高也只有Claude达到17.9%的匹配率。这个数字意味着什么我们对比了几个基准随机选择10%准确率选择热门卡牌19.11%机器学习模型19.77%令人惊讶的是即使是最先进的LLM其表现也不及简单的统计基准。更值得注意的是这种低匹配率在不同人口统计群体性别、性取向、政治立场等中表现相当一致说明这不是针对特定群体的偏差而是普遍性的幽默理解差距。3.2 模型间的共识幻觉数据分析揭示了一个有趣现象模型之间的一致性21.4%-44.9%远高于它们与人类的一致性。具体来看内部一致性同一模型两次测试的重复率Grok最高63.3%GPT最低49.5%跨模型一致性Claude与Gemini最高44.9%GPT与DeepSeek最低21.4%这表明LLM正在形成某种AI特有的幽默标准而这种标准与人类的幽默感存在系统性差异。下表展示了五个模型的两两一致性矩阵模型GPTGeminiClaudeDeepSeekGrokGPT49.5%24.2%21.4%25.2%24.2%Gemini-59.9%44.9%40.7%41.6%Claude--59.8%37.2%34.8%DeepSeek---44.9%29.7%Grok----63.3%3.3 偏差来源的量化分析3.3.1 位置偏差LLM的选择盲点所有模型都表现出显著的位置偏好p0.001但模式各异DeepSeek强烈偏好第3个位置χ²1851Grok偏爱最后一个选项χ²658Claude倾向前半部分的选项GPT/Gemini偏差相对较弱但仍显著这种位置效应在人类玩家中几乎不存在说明LLM的注意力机制可能存在系统性缺陷。在实际应用中这意味着同样的笑话放在不同位置被LLM选中的概率可能相差数倍。3.3.2 内容偏好过度简化的幽默公式主题分析揭示了更根本的差异。与人类相比LLM明显更偏好生理/体液笑话31-40%人类21%性相关内容29-38%人类24%政治/社会话题6-8%人类14%身份/人口统计3-5%人类10%这种差异可能源于RLHF基于人类反馈的强化学习过程中的安全约束。模型被训练避免敏感话题导致它们过度依赖安全的低级幽默。下图展示了各模型与人类在主题选择上的差异分布[主题分布对比图] 身体笑话 │■■■■■■□□ 人类21% vs LLM31-40% 性内容 │■■■■■□□□ 人类24% vs LLM29-38% 政治话题│■□□□□□□□ 人类14% vs LLM6-8% 身份话题│■□□□□□□□ 人类10% vs LLM3-5%3.3.3 预测模型验证为量化这些偏差的解释力我们构建了逻辑回归模型仅基于位置和主题标签来预测模型选择。结果显示Grok/DeepSeek预测准确率达35-36%GPT/Claude预测准确率17-24%随机基线10%这意味着对于某些模型超过三分之一的选择可以用简单的位置和主题偏好来解释而非真正的幽默理解。4. 实践启示与改进方向4.1 当前LLM幽默理解的局限性从实验结果可以总结出几个关键发现浅层模式匹配LLM似乎依赖简单的词频统计和主题关联而非深层的语用推理安全约束的反效果为避免冒犯性内容模型过度规避社会议题导致幽默选择失衡评估指标缺陷传统NLP基准未能捕捉这种文化维度的偏差4.2 可能的改进路径基于这些发现我们建议从以下几个方向改进LLM的幽默理解能力4.2.1 数据层面的优化文化注释数据集为训练数据添加文化背景和幽默类型的元标签多维度RLHF不仅评估回答的安全性还要评估其文化适应性和幽默价值位置去偏训练在微调阶段随机化选项顺序强制模型关注内容而非位置4.2.2 模型架构调整语境增强注意力设计专门捕捉幽默元素的注意力头多任务学习联合训练幽默识别、文化敏感度评估等辅助任务认知模拟模块显式建模预期违背这一幽默核心机制4.2.3 评估体系的完善跨文化测试集包含不同地区、年龄组的幽默偏好数据动态评估框架能检测位置偏差、内容偏好等潜在问题人类对比基准建立细粒度的人口统计分组参考经验分享在后续实验中我们尝试在prompt中明确要求忽略选项顺序仅基于内容幽默性判断这使位置偏差降低了约40%但人机匹配率仅提高2-3个百分点。说明位置偏差只是表层现象更深层的是内容理解的根本差异。5. 延伸思考AI幽默的文化政治学这项研究引发的思考远超技术层面。当我们在讨论对齐时究竟要对齐到哪种文化标准美国大学生的幽默偏好是否应该成为全球AI的默认设置LLM之间形成的高度一致性是否预示着某种AI亚文化的 emergence一个值得警惕的现象是所有测试模型除DeepSeek外都源自西方公司它们的幽默偏差实际上反映了训练数据中隐含的文化霸权。当GPT认为报税比应对拒绝更有趣时这不仅是算法选择更是一种文化价值观的输出。在后续工作中我们计划扩大文化多样性评估特别是加入更多非西方幽默形式如日本的无厘头、英国的冷幽默等。毕竟真正的通用人工智能应该能欣赏《老友记》和《武林外传》的不同笑点而不是将所有幽默都简化为身体功能和性暗示。

相关新闻

Seedance 2.0:Motion Tokenizer驱动的AI视频生成范式革命

Seedance 2.0:Motion Tokenizer驱动的AI视频生成范式革命

1. 项目概述:Seedance 2.0不是“又一个视频模型”,而是重构AI视频生成底层逻辑的临界点字节跳动刚发布的Seedance 2.0,我第一时间拉了源码、跑通了本地推理链路、对比了17组同场景prompt下的输出质量——它根本不是媒体标题里轻飘飘说的“上新…

2026/6/22 22:20:14阅读更多 →
5个关键维度深度解析:如何选择最适合的AI编程工具

5个关键维度深度解析:如何选择最适合的AI编程工具

5个关键维度深度解析:如何选择最适合的AI编程工具 【免费下载链接】opencode The open source coding agent. 项目地址: https://gitcode.com/GitHub_Trending/openc/opencode 在AI技术重塑软件开发流程的今天,技术决策者面临一个核心问题&#x…

2026/6/22 22:20:14阅读更多 →
跨语言服务追踪实战:Go 与 Python 服务如何联动?

跨语言服务追踪实战:Go 与 Python 服务如何联动?

系列导读 你现在看到的是《OpenTelemetry 可观测性体系从入门到生产实战》的第 5/10 篇,当前这篇会重点解决:展示 OpenTelemetry 跨语言能力,解决多技术栈团队的实际痛点。 上一篇回顾:第 4 篇《Java 应用接入 OpenTelemetry:自动埋点 vs 手动埋点实战》主要聚焦 让 Jav…

2026/6/22 22:20:14阅读更多 →
嵌入式C标准库实战:数学函数、内存管理与文件I/O的深度解析与避坑指南

嵌入式C标准库实战:数学函数、内存管理与文件I/O的深度解析与避坑指南

1. C语言标准库:嵌入式开发者的瑞士军刀如果你和我一样,是从单片机、ARM Cortex-M这类资源受限的嵌入式环境摸爬滚打过来的,那你一定对C语言标准库又爱又恨。爱的是,它提供了一套看似统一的接口,让你不用从零开始写字符…

2026/6/22 23:40:31阅读更多 →
Vue filters 真实定位与现代化替代方案

Vue filters 真实定位与现代化替代方案

1. Vue.js 中 filters 的真实定位:不是“过时功能”,而是模板层的轻量格式化契约你可能在 Vue 3 的官方文档里已经找不到filters的独立章节,甚至在社区讨论中频繁听到“filters 已被废弃”“Vue 3 彻底移除了 filters”这类断言。但真相是&am…

2026/6/22 23:40:31阅读更多 →
嵌入式ROM镜像构建:链接器脚本配置与内存布局实战指南

嵌入式ROM镜像构建:链接器脚本配置与内存布局实战指南

1. 项目概述与核心价值在嵌入式开发这个行当里,把一堆C/C源代码变成能在目标芯片上跑起来的程序,最后一步也是最关键的一步,就是生成那个要烧录进Flash或ROM的最终镜像文件。这个过程,我们通常称之为“ROM镜像构建”。听起来简单&…

2026/6/22 23:40:31阅读更多 →
3分钟部署FindSomething:重新定义网页信息安全的终极方案

3分钟部署FindSomething:重新定义网页信息安全的终极方案

3分钟部署FindSomething:重新定义网页信息安全的终极方案 【免费下载链接】FindSomething 基于chrome、firefox插件的被动式信息泄漏检测工具 项目地址: https://gitcode.com/gh_mirrors/fi/FindSomething 在数字时代,每个网页浏览都可能成为信息…

2026/6/22 23:40:31阅读更多 →
别再混淆!AI助手≠数字员工,企业业务人必看的落地避坑

别再混淆!AI助手≠数字员工,企业业务人必看的落地避坑

当下企业数字化转型浪潮下,AI 相关概念层出不穷,多数初次接触 AI 的业务负责人极易混淆通用 AI 助手与企业数字员工,误将轻量化对话工具投入核心业务,最终投入成本却看不到实际价值。向量空间 JBoltAI 深耕企业级 AI 落地&#xf…

2026/6/22 23:40:31阅读更多 →
VCF 9.1 启用 Tanzu 完整教程:Workload Management 开启步骤 + 硬性硬件 / 环境要求

VCF 9.1 启用 Tanzu 完整教程:Workload Management 开启步骤 + 硬性硬件 / 环境要求

VCF 一体化私有云内置原生 Tanzu Kubernetes 能力,很多运维不清楚开启入口、必备硬件与底层环境约束,直接配置会出现校验失败、Supervisor 集群部署中断。开启 Tanzu 核心操作是在 vCenter 中启用Workload Management(工作负载管理&#xff0…

2026/6/22 23:35:31阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/22 6:01:42阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/22 1:15:34阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/22 5:42:46阅读更多 →
Codex本地AI编码代理与CC Switch协议适配实战

Codex本地AI编码代理与CC Switch协议适配实战

1. Codex不是“另一个VS Code插件”,而是本地AI编码代理的临界点Codex这个名字,现在被太多人误读了。它不是ChatGPT那个早已停更的旧模型代号,也不是某个新出的VS Code扩展图标——它是2024年中后期悄然浮出水面的一类本地化AI编码代理&#…

2026/6/22 0:04:18阅读更多 →
从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

1. 项目概述:当8位MCU遇到性能瓶颈,我们如何优雅升级?在嵌入式开发领域,尤其是电池供电的便携式设备、工业传感器节点或智能家居终端中,我们常常面临一个经典的两难选择:是选择功耗极低但性能有限的8位微控…

2026/6/22 0:04:18阅读更多 →
大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

1. 项目缘起:当大语言模型“看”不懂空间 最近在折腾大语言模型(LLM)的各种应用时,我发现一个挺有意思的现象:你让模型写首诗、写代码、甚至做逻辑推理,它可能都表现得有模有样。但一旦涉及到需要理解“空间…

2026/6/22 0:04:18阅读更多 →