AI学习原创
模型测试 Round 2 最终报告:11 大模型 30 硬核题,GPT-5.4 夺冠
Will约 2 分钟阅读
🏆 总排行榜
综合分 = A×30% + P×27% + R×20% + M×15% + L×8%。主观题(8道)权重 = 客观题 × 1/3。
| 排名 | 模型 | 综合 | Agent | 编程 | 逻辑 | 数学 | 中文 | 日语 |
|---|---|---|---|---|---|---|---|---|
| 🥇 | gpt-5.4 | 935.3 | 937 | 930 | 931 | 955 | 942 | 875 |
| 🥈 | qwen3.5-plus | 922.0 | 913 | 907 | 942 | 957 | 902 | 871 |
| 🥉 | glm-5-turbo | 920.5 | 904 | 919 | 929 | 951 | 917 | 894 |
| #4 | claude-sonnet-4.6 | 908.7 | 884 | 899 | 932 | 942 | 902 | 923 |
| #5 | claude-opus-4.6 | 906.5 | 866 | 903 | 947 | 958 | 855 | 907 |
| #6 | minimax-m2.7 | 903.1 | 900 | 895 | 915 | 946 | 846 | 802 |
| #7 | gpt-5.4-mini | 902.5 | 884 | 913 | 919 | 949 | 820 | 789 |
| #8 | deepseek-reasoner | 900.0 | 861 | 903 | 931 | 945 | 874 | 870 |
| #9 | glm-5.1 | 888.3 | 859 | 865 | 929 | 940 | 887 | 871 |
| #10 | deepseek-chat | 883.3 | 858 | 869 | 905 | 938 | 878 | 856 |
| #11 | kimi-k2.5 | 878.2 | 855 | 839 | 937 | 927 | 862 | 857 |
🔗 [查看完整交互图表版(条形图/堆叠图/维度排行/题目分析)→](/model-eval-round2-2026-04-11.html)
📐 分维度冠军
| 维度 | 冠军模型 | 分数 |
|---|---|---|
| 🤖 Agent 服从性 | gpt-5.4 | 937 |
| 💻 编程 | gpt-5.4 | 930 |
| 🧠 逻辑推理 | claude-opus-4.6 | 947 |
| 🔢 数学 | claude-opus-4.6 | 958 |
| 🇨🇳 中文 | gpt-5.4 | 942 |
| 🇯🇵 日语 | claude-sonnet-4.6 | 923 |
🎯 题目难度
最难 5 题
| 题号 | 维度 | 标题 | 平均分 |
|---|---|---|---|
| A06 | Agent | 多步任务规划 JSON | 746 |
| P04 | 编程 | JWT 安全审查(经典漏洞集) | 772 |
| A01 | Agent | 严格 JSON Schema 输出 | 785 |
| L05 | 日语 | 敬语的纠正(JLPT N1 相当) | 794 |
| A07 | Agent | 错误恢复:部分失败场景 | 812 |
最简 5 题
| 题号 | 维度 | 标题 | 平均分 |
|---|---|---|---|
| A03 | Agent | 指令冲突消解:system 优先 | 983 |
| M05 | 数学 | 生日悖论:23人同生日概率 | 972 |
| M02 | 数学 | 中国剩余定理:四元同余方程组 | 963 |
| M04 | 数学 | 贝叶斯推断:三生产线次品率 | 961 |
| A05 | Agent | 严格输出格式:Markdown 表格 | 961 |
⚡ 关键洞察
1. GPT-5.4 全能冠军,但 Claude Opus 在纯推理/数学上更强
GPT-5.4 在 Agent 服从性(937)、编程(930)、中文(942)三项维度夺冠。Claude Opus 4.6 则在逻辑推理(947)和数学(958)上领先,但综合排名仅第5——弱在 Agent 服从性(866)和中文(855)。
2. 中国模型正面挑战成功
Qwen3.5-plus(#2,综合922)和 GLM-5-Turbo(#3,综合920.5)双双超越 Claude Opus 4.6(#5,综合906.5)。这不是偶然——GLM 编程 919分、Qwen 数学 957分,均达到顶级水准。
3. 日语是所有非 Claude 模型的共同短板
除 Claude Sonnet(923)和 Opus(907)外,所有模型日语均低于 900。GPT-5.4-mini 仅 789,minimax-m2.7 仅 802。GLM-5-Turbo 是中国模型中日语最高(894)。
4. 裁判一致性 74.8%
双裁判(Opus + GPT-5.4)在 74.8% 的评分中一致。分歧主要集中在 Agent 创意任务和主观文案题——两位裁判对"好创意"的判断存在合理差异。
📖 评测方法
- 裁判:Claude Opus 4.6 + GPT-5.4,各自独立评分,排除自评
- 题目:30 道,覆盖 Agent(5) / 编程(6) / 逻辑(5) / 数学(5) / 中文(5) / 日语(4)
- 权重:Agent×30% + 编程×27% + 逻辑×20% + 数学×15% + 语言×8%
- 满分:1000 分制
- 裁判一致率:74.8%
评论
加载中...
发表评论
0/1000