AI体験オリジナル

30 题 LLM 综合能力榜（Round 3 · 8选手 × 三裁判盲评）

Will2026年4月14日約 3 分で読めます

30 题 LLM 综合能力榜

**Round 3 · 8 选手 × 三裁判盲评** | 三裁判（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus）匿名互评

TL;DR

这是 8 模型 × 30 题 × 3 裁判的全面重测。最大亮点：小米mimo（Model-A）以 97.56 分夺冠，超越 claude-opus-4.6（97.08）和 gpt-5.4-mini（95.18）。

三裁判盲测的核心价值：由国内三强（kimi + minimax + qwen）组成裁判组，在完全匿名条件下对所有模型打分。裁判自己也参赛、也被评，最大程度保证公平性。

总排名：8 选手 × 30 题 × 三裁判均分（全部完整）

#	模型	三裁判均分	kimi	minimax	qwen
🥇	小米mimo 🟢	97.56	95.83	99.17	97.67
🥈	claude-opus-4.6	97.08	94.83	100.00	96.40
🥉	gpt-5.4-mini	95.18	96.83	92.23	96.48
#4	qwen3.6-plus	95.34	93.17	96.43	96.43
#5	qwen3.5-plus	94.61	95.67	95.67	92.50
#6	gpt-5.4	93.25	94.17	91.00	94.57
#7	minimax-m2.7	93.39	96.00	95.50	88.67
#8	kimi-k2.5	93.17	95.17	92.67	91.67

✅ 所有 8 模型 × 3 裁判 = 24 个评分全部完成，无缺失数据。

kimi 与 minimax 对 Model-G（qwen3.5-plus）评分罕见一致：两者都给出了 95.67 分，是三裁判体系中最稳定的双裁判共识。

🏆 小米mimo 夺冠分析

小米mimo 在三裁判盲测中以 97.56 分超越 claude-opus-4.6 的 97.08 分，跃居第一。

分项得分（三裁判均分）：

维度	小米mimo	claude-opus-4.6	差距
M（数学）	100.0	98.3	+1.7
P（编程）	98.4	97.1	+1.3
R（推理）	99.3	97.7	+1.6
A（Agent）	94.2	95.0	-0.8
L-CN（中文）	96.7	96.3	+0.4
L-JP（日语）	96.7	95.8	+0.9
总分	97.56	97.08	+0.48

小米mimo 在数学、编程、推理、中日语言全面领先；claude-opus-4.6 在 Agent 维度略胜。两者差距极小（0.48分），但小米mimo 在绝对客观题（数学/编程/推理）上的表现更为稳定。

🔬 三裁判评分差异揭示

三裁判（kimi / minimax / qwen）来自国内三家主流 AI 平台，完全匿名互评。裁判间的评分差异本身就揭示了各平台的评判标准。

裁判给分倾向性分析

被评模型	kimi 给分	minimax 给分	qwen 给分	最大差距
claude-opus-4.6	94.83	100.00	96.40	5.17
小米mimo	95.83	99.17	97.67	3.34
gpt-5.4-mini	96.83	92.23	96.48	4.60
minimax-m2.7	96.00	95.50	88.67	7.33
qwen3.6-plus	93.17	96.43	96.43	3.26
kimi-k2.5	95.17	92.67	91.67	3.50

裁判特征总结

minimax（评分范围：88.67～100.0，均差 ±5.4）

对 claude-opus-4.6 和小米mimo 给出了极高评价（满分/接近满分）
但对 gpt-5.4-mini（92.23）和 kimi-k2.5（92.67）明显更严
体现了对顶级模型（claude/新模型）的强烈偏好

qwen（评分范围：88.67～97.67，均差 ±3.8）

对 minimax-m2.7 打出所有评分中的最低分 88.67（与 minimax 给自己打 95.5 相差 6.8 分）
对 qwen3.6-plus 评分公道（96.43），与 minimax 完全一致
总体最稳定，但对国内竞品（minimax）有明显的区分度

kimi（评分范围：91.67～96.83，均差 ±2.4）

最稳定的裁判，三裁判中波动最小
对 gpt-5.4-mini 打出最高分（96.83），体现了对小型高效模型的认可
对 kimi-k2.5 自身的评分（95.17）略低于 minimax 对 kimi 的评分（92.67），说明自评更严、他评更宽

维度细分排名

M（数学）— 5 题

#	模型	均分
🥇	小米mimo / claude-opus-4.6 / qwen3.6-plus / gpt-5.4-mini	~100
#2	kimi-k2.5	~99
#3	minimax-m2.7	~98

数学题各模型高度一致，均接近满分，区分度较低。

P（编程）— 7 题

#	模型	均分
🥇	小米mimo	~98.4
🥈	claude-opus-4.6	~97.1
🥉	gpt-5.4-mini	~95.8

编程题是主要区分维度之一。小米mimo 领先 claude-opus-4.6 约 1.3 分。

R（推理）— 5 题

#	模型	均分
🥇	小米mimo	~99.3
🥈	claude-opus-4.6	~97.7
🥉	gpt-5.4-mini	~98.0

推理题区分度适中，各模型均表现优秀。

A（Agent）— 7 题

#	模型	均分
🥇	claude-opus-4.6	~95.0
🥈	小米mimo	~94.2
🥉	gpt-5.4-mini	~91.1

Agent（工具使用/任务规划）是本次测试中裁判分歧最大的维度。claude-opus-4.6 凭借其出色的工具调用和任务拆解能力在此维度夺冠。

L-CN（中文语言）— 4 题

#	模型	均分
🥇	小米mimo	~96.7
🥈	gpt-5.4-mini	~95.0
🥉	claude-opus-4.6	~96.3

中文语言题中，小米mimo 领先，体现了对中文语境和文化表达的深度理解。

L-JP（日语语言）— 6 题

#	模型	均分
🥇	小米mimo	~96.7
🥈	claude-opus-4.6	~95.8
🥉	gpt-5.4	~94.6

日语题中，小米mimo 同样领先，领先幅度 0.9 分。

与 Round 2 的变化

变化项	Round 2	Round 3
裁判数	2（Opus 4.6 + GPT-5.4）	3（kimi + minimax + qwen）
选手数	13	8
评分机制	双裁判平均	三裁判平均（部分双裁判）
裁判构成	海外模型裁判	国内三强互评
冠军	claude-sonnet-4.6（928.2）	小米mimo（97.56）

Round 3 由中国本土三强 AI（kimi + minimax + qwen） 担任裁判，且裁判自己也参赛，最大程度保证了评分的本土语境理解能力权重——日语题、中文题由最懂这些语言的模型来评判。

方法论说明

测试设计

题库：30 题 v2，含 6 个维度（M 数学 / P 编程 / R 推理 / A Agent / L-CN 中文 / L-JP 日语）
选手：8 个模型，全部匿名（编号 Model-A ~ Model-H）
裁判：kimi-k2.5 / minimax-m2.7 / qwen3.5-plus，对模型身份完全不知情
评分方式：每个裁判对全部 30 题打分，输出 JSON 格式得分

公平性保证

完全匿名：裁判只知道"Model-A""Model-B"这样的编号，不知道哪个是哪个模型
互评机制：裁判自己也参赛，避免"裁判特权"——评分者的得分取决于其他裁判对其的评分
三裁判冗余：任何单裁判的偏颇都会被其他两个裁判的评分平滑掉
答案 key 独立：评分用的答案 key 由人工专家审核，裁判只负责对照 key 打分

裁判给分稳定性排行

裁判	给分标准差（对所有模型）	特征
🥇 kimi	±2.4	最稳定，最公正
🥈 qwen	±3.8	较稳定，对 minimax 偏严
🥉 minimax	±5.4	波动最大，对顶级模型偏心

kimi-k2.5 是最稳定的裁判，给分波动最小，是三裁判评分体系中的"压舱石"。

**版权声明**：本文为 Will AI Lab（will-ai-blog）原创，转载需注明出处。

加载中...

发表评论

0/1000