陈文虎及其团队推出MMLU - Pro、MMMU等评测,为AI模型评估补漏洞
旧考卷失灵之后每次前沿模型发布AI圈都会盯着MMLU - Pro、MMMU、MMMU - Pro等“标准科目”成绩单GPT、Claude等模型不断在这些基准上交卷。但有意思的是几乎所有人关注分数却少有人知道出题人是陈文虎。陈文虎最先被更多人注意是因为MMLU - Pro。MMLU曾是大语言模型能力评估常用基准评测早期有用但随着模型能力提升它变得“不够考”前沿模型分数接近满分难以继续判断谁更强。2024年陈文虎和团队推出MMLU - Pro重新改造考卷包含12032道题覆盖14个领域把选项从4个扩展到10个加入更多偏推理问题清理简单、有歧义或区分度不足的题目。论文结果显示模型在MMLU - Pro上准确率相比原版MMLU下降16%到33%成绩波动也下降新卷子更难且更稳定拉开了模型差距。好用的基准评测MMLU - Pro很快被行业采用进入NeurIPS2024数据集与基准评测赛道被EleutherAI的语言模型评测框架lm - evaluation - harness集成很多模型发布开始报告其分数HuggingFace排行榜也将其纳入评估体系。MMMU则把陈文虎和TIGERLab推到多模态评测中心。多模态模型问题更复杂要处理多种形式信息需结合视觉、文本和学科知识推理。MMMU基准评测包含1.15万道多模态问题来自大学考试等覆盖六大领域细分30个学科和183个子领域。发布时测试了14个开源多模态模型及GPT - 4V、GeminiUltra等闭源模型即便最强闭源模型准确率也仅56%和59%说明多模态模型在专业理解和推理上仍有提升空间。后来陈文虎团队推出MMMU - Pro堵住模型绕过视觉信息的空间不让模型“只看文字猜答案”。“考卷”背后的人陈文虎做MMLU - Pro和MMMU源于其研究方向他对复杂信息理解、知识问答和推理感兴趣。他本科毕业于华中科技大学后到德国亚琛工业大学攻读硕士再到加州大学圣巴巴拉分校获博士学位博士期间围绕复杂问答等方向研究。他参与过HybridQA等项目对模型评估漏洞敏感好的基准评测要预判模型“蒙对题”的漏洞并补好。博士毕业后陈文虎进入谷歌研究院2021 - 2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。2022年秋季加入滑铁卢大学担任助理教授同年入选CanadaCIFARAIChair创办“老虎实验室虎头帮”继续围绕基础模型等展开研究。虎头帮不仅做基准评测还做模型和系统研究如UniVideo、Vamba、MoCha等项目。自己做模型让他们更适合做评估因为好的评估源于对模型能力边界的理解。如今陈文虎进入Meta超级智能实验室工作集中在多模态预训练数据和评估服务于Meta基础模型。AI行业中聚光灯常落在创业者等身上但华人人才的参与不止这些显眼位置。

相关新闻

AI专著生成全流程:AI工具助力,20万字专著轻松撰写!

AI专著生成全流程:AI工具助力,20万字专著轻松撰写!

创新是学术专著的核心,也是写作过程中最大的挑战。一本合格的学术专著,不能仅仅是对已有研究成果的简单罗列,而应当提出贯穿全篇的独到见解、理论框架或研究方法。在庞大的学术文献面前,寻找尚未被探索的研究空白却并不容易——有…

2026/6/21 7:36:37阅读更多 →
几何核方法:在非欧域上构建Matérn核的数学原理与实践

几何核方法:在非欧域上构建Matérn核的数学原理与实践

1. 从欧几里得到流形:为什么我们需要几何核方法?如果你接触过传统的机器学习,尤其是高斯过程或核方法,那么你对径向基函数(RBF)核,也就是常说的平方指数核,一定不陌生。它的形式很优…

2026/6/21 7:31:37阅读更多 →
手机号定位神器:如何3秒内完成号码归属地查询与地图精准定位

手机号定位神器:如何3秒内完成号码归属地查询与地图精准定位

手机号定位神器:如何3秒内完成号码归属地查询与地图精准定位 【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/g…

2026/6/21 7:31:37阅读更多 →
英雄联盟Akari助手终极指南:从青铜到王者的智能工具箱完整配置方案

英雄联盟Akari助手终极指南:从青铜到王者的智能工具箱完整配置方案

英雄联盟Akari助手终极指南:从青铜到王者的智能工具箱完整配置方案 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为英雄联盟…

2026/6/21 8:46:42阅读更多 →
3大核心功能:解锁华硕笔记本性能优化的终极方案

3大核心功能:解锁华硕笔记本性能优化的终极方案

3大核心功能:解锁华硕笔记本性能优化的终极方案 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertbo…

2026/6/21 8:46:42阅读更多 →
5步轻松搞定:Visual C++运行库一键安装完整指南

5步轻松搞定:Visual C++运行库一键安装完整指南

5步轻松搞定:Visual C运行库一键安装完整指南 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的困扰:刚下载了一个期…

2026/6/21 8:46:42阅读更多 →
多组学研究可复现性危机:人口统计学信息缺失的根源与解决方案

多组学研究可复现性危机:人口统计学信息缺失的根源与解决方案

1. 从“数据黑箱”到“可复现基石”:为什么我们如此在意论文里的人口统计学信息? 如果你最近几年在生物医学或者生命科学领域做研究,尤其是涉及多组学数据分析,你大概率会听到一个词:“可复现性危机”。简单来说&#…

2026/6/21 8:46:42阅读更多 →
贪心交换算法:高效解决矩阵列子集选择问题

贪心交换算法:高效解决矩阵列子集选择问题

1. 项目概述:从实际问题到算法抽象最近在优化一个推荐系统的特征工程模块时,我遇到了一个典型问题:手头有上千个用户行为特征(比如点击、浏览时长、收藏等),它们被组织成一个巨大的用户-特征矩阵。我的目标…

2026/6/21 8:46:42阅读更多 →
DETR-ViP:视觉提示与关系蒸馏增强Transformer检测器鲁棒性

DETR-ViP:视觉提示与关系蒸馏增强Transformer检测器鲁棒性

1. 项目概述:当DETR遇见视觉提示在目标检测这个卷到飞起的领域,大家这几年都盯着Transformer架构带来的变革。从最初的DETR(Detection Transformer)横空出世,用一套端到端的方案干掉了传统检测器里繁琐的锚框&#xff…

2026/6/21 8:41:41阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/21 0:00:40阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/21 0:00:40阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/21 0:00:40阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/21 0:00:40阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/21 0:00:40阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/21 0:00:40阅读更多 →