Smoke评测:Qwen3 Max约束+23分逆袭,GPT-o3材料约束暴跌15.2分
在2026年6月19日的赢政指数Smoke轻量评测中Gemini 3.1 Pro以主榜99.28分、代码执行100分、材料约束98.4分位居第一0.55×执行0.45×约束的加权结构凸显其双维度均衡优势。执行满分阵营的约束分化今日11个模型中Gemini 3.1 Pro、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、GPT-o3、GPT-5.5、豆包Pro、Claude Sonnet 4.6共10个模型代码执行全部达到100分。排名差异几乎完全由材料约束决定Gemini 3.1 Pro约束98.4分拉开第二名Claude Opus 4.7和DeepSeek V4 Pro的2.53分差距。文心一言4.5是唯一执行未满分的模型其代码执行94.1分、材料约束92.2分主榜93.25分。执行短板使其无法进入前六但约束表现仍优于GPT-o3的84.8分。昨日对比下的剧烈波动与昨日数据对比Qwen3 Max材料约束提升23分主榜从约86.95分跃升至97.35分排名升至第四。Grok 4约束提升19.6分主榜升8.8分至95.82分。两模型均保持执行100分约束端的单日改善直接转化为排名上升。反向波动同样显著。GPT-o3材料约束下降15.2分主榜降6.8分至93.16分豆包Pro约束下降15.9分主榜降7.2分至92.85分。Claude Sonnet 4.6约束下降14分主榜降6.3分至92.53分。异常信号的结构解读GPT-o3与豆包Pro的约束暴跌发生在执行保持100分的前提下说明问题集中于材料约束环节。0.45的权重使得约束每下降15分左右主榜即损失约6.8-7.2分与实际排名下滑幅度一致。两模型昨日约束本已处于中下游单日进一步下滑后与前五名拉开5分以上差距。Qwen3 Max和Grok 4的约束提升则显示出不同路径。两者执行本已满分约束端改善直接推高主榜且未伴随执行侧波动结构相对稳健。约束端单日波动超过15分已成为区分模型真实可用性的关键信号。今日排名前六模型约束均在90.7分以上后五名约束则分布在83.4-92.2分区间。执行满分已成标配材料约束的稳定性与上限正在决定每日 Smoke 排名的最终格局。数据来源赢政指数 (YZ Index) | Run #187 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

相关新闻

从 AdapterTypeMetaData 看懂 SAP 适配器元数据的主干设计

从 AdapterTypeMetaData 看懂 SAP 适配器元数据的主干设计

在 SAP PI 或 SAP PO 项目里,通信通道配置界面看起来只是一些输入框、下拉框、复选框和表格,但这些界面背后并不是凭空写死在工具里的。对自定义 Adapter 来说,很多配置项来自一份 Adapter Metadata。SAP 官方文档把 Adapter Metadata 定义为一个 XML 文档,它用于描述 Adap…

2026/6/20 10:08:42阅读更多 →
MC9S12 SCI串口通信深度解析:从寄存器配置到多机通信实战

MC9S12 SCI串口通信深度解析:从寄存器配置到多机通信实战

1. 项目概述与核心价值 在嵌入式开发,尤其是汽车电子和工业控制领域,MC9S12系列微控制器因其高可靠性和丰富的片上外设而备受青睐。其中,串行通信接口(SCI)模块是实现设备间数据交换的基石,无论是用于程序调…

2026/6/20 10:08:42阅读更多 →
从Demo狂欢到生产落地,AI Agent系统化测评完整实践指南

从Demo狂欢到生产落地,AI Agent系统化测评完整实践指南

当下AI Agent已经走出实验室Demo阶段,成为企业智能化落地的核心载体。各类智能Agent、AI Skill工具层出不穷,能自动调用工具、梳理流程、分析数据、解决业务问题,看似功能完备、效果亮眼。但绝大多数团队都会陷入同一个困境,Demo跑…

2026/6/20 10:08:42阅读更多 →
MC68HC908AP中断、看门狗与电源监控模块深度解析与实战避坑

MC68HC908AP中断、看门狗与电源监控模块深度解析与实战避坑

1. 项目概述与核心价值 在嵌入式系统开发,尤其是基于MC68HC908AP这类8位微控制器的项目中,中断、看门狗和电源监控是保障系统实时性、可靠性与健壮性的基石。很多工程师在初次接触这些模块时,往往只关注如何“让功能跑起来”,而忽…

2026/6/20 11:23:49阅读更多 →
漏洞扫描误报治理:从根源剖析到闭环处理方案

漏洞扫描误报治理:从根源剖析到闭环处理方案

1. 项目概述:为什么漏洞扫描误报是安全团队的“心腹大患”?干了这么多年安全,最头疼的不是没发现漏洞,而是每天面对扫描器吐出来的一大堆“漏洞”,里面真真假假,虚虚实实。一个高优先级的漏洞告警拉响了整个…

2026/6/20 11:23:49阅读更多 →
CANN/ge图引擎获取流数量API

CANN/ge图引擎获取流数量API

GetStreamNum 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前…

2026/6/20 11:23:49阅读更多 →
cslol-manager开发者指南:如何扩展和自定义模组管理器

cslol-manager开发者指南:如何扩展和自定义模组管理器

cslol-manager开发者指南:如何扩展和自定义模组管理器 【免费下载链接】cslol-manager The mod manager for League of Legends 项目地址: https://gitcode.com/gh_mirrors/cs/cslol-manager cslol-manager是一款强大的《英雄联盟》模组管理器,它…

2026/6/20 11:23:49阅读更多 →
C语言数学函数工程实践:从浮点数原理到性能优化

C语言数学函数工程实践:从浮点数原理到性能优化

1. 项目概述:为什么C语言数学函数值得深挖?如果你写过一段时间的C语言,尤其是涉及到计算、图形、仿真或者嵌入式系统,大概率已经用过math.h里的那些函数了。sin,cos,pow,sqrt... 这些名字看起来平平无奇,敲起来也毫不费…

2026/6/20 11:23:49阅读更多 →
Sula动态表单高级应用:处理复杂业务逻辑的完整案例分析

Sula动态表单高级应用:处理复杂业务逻辑的完整案例分析

Sula动态表单高级应用:处理复杂业务逻辑的完整案例分析 【免费下载链接】sula Pluggable enterprise-level configurable framework based on antd. 项目地址: https://gitcode.com/gh_mirrors/sul/sula Sula动态表单作为一款基于antd的可插拔企业级配置框架…

2026/6/20 11:18:49阅读更多 →
【课程设计/毕业设计】基于 Web 的高校县志馆藏信息综合管理系统设计与实现 基于Django的青岛滨海学院特色文献捐赠流转管理系统的设计与实现【附源码、数据库、万字文档】

【课程设计/毕业设计】基于 Web 的高校县志馆藏信息综合管理系统设计与实现 基于Django的青岛滨海学院特色文献捐赠流转管理系统的设计与实现【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/6/20 0:02:40阅读更多 →
MC68HC908RF2A定时器PWM生成原理与实战:无缓冲与缓冲模式详解

MC68HC908RF2A定时器PWM生成原理与实战:无缓冲与缓冲模式详解

1. 项目概述与核心价值在嵌入式开发,尤其是电机驱动、LED调光、开关电源这些需要精确控制“能量”的领域,脉冲宽度调制(PWM)技术是工程师手中的一把瑞士军刀。它的本质很简单:用一个固定频率的方波,通过改变…

2026/6/20 0:02:40阅读更多 →
在银河麒麟V10桌面(2205版本)上实战部署软RAID 1:从模块黑名单到自动挂载

在银河麒麟V10桌面(2205版本)上实战部署软RAID 1:从模块黑名单到自动挂载

1. 银河麒麟V10桌面系统与软RAID 1基础认知 第一次在银河麒麟V10桌面上折腾软RAID 1时,我踩了不少坑。这个国产操作系统基于Linux内核,但2205版本对软RAID模块做了特殊处理,需要额外操作才能正常使用。软RAID 1其实就是磁盘镜像技术&#xff…

2026/6/20 0:02:40阅读更多 →