泄露的MMLU-Pro分数从GPT-4o的86.5%微增至89.2%,而训练成本据估计达到GPT-4时期的8-10倍,这明确表明 Scaling Law 的收益递减正在加速。更值得关注的是GPQA Diamond仅提升2.1个百分点至78.4%,说明在需要深层科学推理的任务上,单纯扩大参数规模和数据量已接近边际效用极限。OpenAI内部'Project Orion'的延迟上线也佐证了这一判断——他们正在从预训练转向推理时计算扩展,这正是承认基础模型Scaling放缓的战略转向。
这种'天花板论'忽视了基准测试本身的饱和效应。MMLU-Pro在设计时并未预期90%+的准确率,其题目区分度在头部模型面前已失效。真正关键的指标是SWE-bench中GPT-5.4达到的81.7%——相比GPT-4o的53.1%这是质的飞跃,且该基准仍在快速迭代中。泄露数据还显示多模态理解在Video-MME上从72.3%跃升至89.6%,说明能力增长正在从文本向跨模态迁移。用单一维度的停滞否定整体进步,是方法论上的谬误。
需要区分'能力增长放缓'与'研究范式转换'两个不同命题。泄露的HumanEval分数从GPT-4的92%到GPT-5.4的94.5%确实增幅有限,但OpenAI同期投入的o3推理模型在相同测试上达到96.8%,说明资源正从通用预训练转向专用推理架构。更深层的问题是评估体系滞后:当前基准无法捕捉模型在开放式创意任务、长期规划和价值对齐方面的真实进展。GPT-5.4在内部'隐藏基准'上的传闻表现——特别是多轮谈判和科学研究辅助——可能远超公开数字所暗示的。