AI学习原创

模型测试 Round 2 最终报告：11 大模型 30 硬核题，GPT-5.4 夺冠

Will2026年4月11日约 2 分钟阅读

🏆 总排行榜

综合分 = A×30% + P×27% + R×20% + M×15% + L×8%。主观题（8道）权重 = 客观题 × 1/3。

排名	模型	综合	Agent	编程	逻辑	数学	中文	日语
🥇	gpt-5.4	935.3	937	930	931	955	942	875
🥈	qwen3.5-plus	922.0	913	907	942	957	902	871
🥉	glm-5-turbo	920.5	904	919	929	951	917	894
#4	claude-sonnet-4.6	908.7	884	899	932	942	902	923
#5	claude-opus-4.6	906.5	866	903	947	958	855	907
#6	minimax-m2.7	903.1	900	895	915	946	846	802
#7	gpt-5.4-mini	902.5	884	913	919	949	820	789
#8	deepseek-reasoner	900.0	861	903	931	945	874	870
#9	glm-5.1	888.3	859	865	929	940	887	871
#10	deepseek-chat	883.3	858	869	905	938	878	856
#11	kimi-k2.5	878.2	855	839	937	927	862	857

🔗 [查看完整交互图表版（条形图/堆叠图/维度排行/题目分析）→](/model-eval-round2-2026-04-11.html)

📐 分维度冠军

维度	冠军模型	分数
🤖 Agent 服从性	gpt-5.4	937
💻 编程	gpt-5.4	930
🧠 逻辑推理	claude-opus-4.6	947
🔢 数学	claude-opus-4.6	958
🇨🇳 中文	gpt-5.4	942
🇯🇵 日语	claude-sonnet-4.6	923

🎯 题目难度

最难 5 题

题号	维度	标题	平均分
A06	Agent	多步任务规划 JSON	746
P04	编程	JWT 安全审查（经典漏洞集）	772
A01	Agent	严格 JSON Schema 输出	785
L05	日语	敬语的纠正（JLPT N1 相当）	794
A07	Agent	错误恢复：部分失败场景	812

最简 5 题

题号	维度	标题	平均分
A03	Agent	指令冲突消解：system 优先	983
M05	数学	生日悖论：23人同生日概率	972
M02	数学	中国剩余定理：四元同余方程组	963
M04	数学	贝叶斯推断：三生产线次品率	961
A05	Agent	严格输出格式：Markdown 表格	961

⚡ 关键洞察

1. GPT-5.4 全能冠军，但 Claude Opus 在纯推理/数学上更强

GPT-5.4 在 Agent 服从性（937）、编程（930）、中文（942）三项维度夺冠。Claude Opus 4.6 则在逻辑推理（947）和数学（958）上领先，但综合排名仅第5——弱在 Agent 服从性（866）和中文（855）。

2. 中国模型正面挑战成功

Qwen3.5-plus（#2，综合922）和 GLM-5-Turbo（#3，综合920.5）双双超越 Claude Opus 4.6（#5，综合906.5）。这不是偶然——GLM 编程 919分、Qwen 数学 957分，均达到顶级水准。

3. 日语是所有非 Claude 模型的共同短板

除 Claude Sonnet（923）和 Opus（907）外，所有模型日语均低于 900。GPT-5.4-mini 仅 789，minimax-m2.7 仅 802。GLM-5-Turbo 是中国模型中日语最高（894）。

4. 裁判一致性 74.8%

双裁判（Opus + GPT-5.4）在 74.8% 的评分中一致。分歧主要集中在 Agent 创意任务和主观文案题——两位裁判对"好创意"的判断存在合理差异。

📖 评测方法

裁判：Claude Opus 4.6 + GPT-5.4，各自独立评分，排除自评
题目：30 道，覆盖 Agent(5) / 编程(6) / 逻辑(5) / 数学(5) / 中文(5) / 日语(4)
权重：Agent×30% + 编程×27% + 逻辑×20% + 数学×15% + 语言×8%
满分：1000 分制
裁判一致率：74.8%

加载中...

发表评论

0/1000