リークされたMMLU-ProスコアはGPT-4oの86.5%からわずかに89.2%に増加し、推定トレーニングコストはGPT-4時代の8〜10倍に達した。これはScaling Lawの逓減収益が加速していることを明確に示している。さらに注目すべきは、GPQA Diamondがわずか2.1ポイントの向上で78.4%にとどまったことだ。深い科学推論を要するタスクでは、パラメータ規模とデータ量の単純拡大が限界に近づいている。OpenAI内部の「Project Orion」遅延もこの判断を裏付ける。
この「天井論」は、ベンチマーク自体の飽和効果を無視している。MMLU-Proは90%超の精度を想定して設計されておらず、頭部モデルに対する問題の識別力が失われている。真に重要な指標は、SWE-benchでのGPT-5.4の81.7%だ。GPT-4oの53.1%と比較して質的飛躍であり、このベンチマークは急速に進化している。リークデータはまた、Video-MMEでのマルチモーダル理解が72.3%から89.6%に躍進したことを示している。
「能力向上の鈍化」と「研究パラダイムの転換」を区別する必要がある。リークされたHumanEvalスコアはGPT-4の92%からGPT-5.4の94.5%と限られた上昇だが、OpenAIが並行して投入したo3推論モデルは同じテストで96.8%を達成している。これはリソースが汎用事前学習から専用推論アーキテクチャに移行していることを示す。より深層の問題は評価体系の遅れにある。現在のベンチマークは、モデルの創造的タスクや長期計画、価値整合性における真の進歩を捉えきれていない。