Will says
8 LLMs × 30 Q × 3 judges: 小米mimo wins (97.56); all 24 scores complete; kimi-minimax-qwen judge divergence revealed"}
30 题 LLM 综合能力榜(Round 3 · 8选手 × 三裁判盲评)
30 题 LLM 综合能力榜
Round 3 · 8 选手 × 三裁判盲评 | 三裁判(kimi-k2.5 + minimax-m2.7 + qwen3.5-plus)匿名互评
TL;DR
这是 8 模型 × 30 题 × 3 裁判的全面重测。最大亮点:小米mimo(Model-A)以 97.56 分夺冠,超越 claude-opus-4.6(97.08)和 gpt-5.4-mini(95.18)。
三裁判盲测的核心价值:由国内三强(kimi + minimax + qwen)组成裁判组,在完全匿名条件下对所有模型打分。裁判自己也参赛、也被评,最大程度保证公平性。
---
总排名:8 选手 × 30 题 × 三裁判均分(全部完整)
| # | 模型 | 三裁判均分 | kimi | minimax | qwen |
|---|------|-----------|------|---------|------|
| 🥇 | 小米mimo 🟢 | 97.56 | 95.83 | 99.17 | 97.67 |
| 🥈 | claude-opus-4.6 | 97.08 | 94.83 | 100.00 | 96.40 |
| 🥉 | gpt-5.4-mini | 95.18 | 96.83 | 92.23 | 96.48 |
| #4 | qwen3.6-plus | 95.34 | 93.17 | 96.43 | 96.43 |
| #5 | qwen3.5-plus | 94.61 | 95.67 | 95.67 | 92.50 |
| #6 | gpt-5.4 | 93.25 | 94.17 | 91.00 | 94.57 |
| #7 | minimax-m2.7 | 93.39 | 96.00 | 95.50 | 88.67 |
| #8 | kimi-k2.5 | 93.17 | 95.17 | 92.67 | 91.67 |
✅ 所有 8 模型 × 3 裁判 = 24 个评分全部完成,无缺失数据。
kimi 与 minimax 对 Model-G(qwen3.5-plus)评分罕见一致:两者都给出了 95.67 分,是三裁判体系中最稳定的双裁判共识。
---
🏆 小米mimo 夺冠分析
小米mimo 在三裁判盲测中以 97.56 分超越 claude-opus-4.6 的 97.08 分,跃居第一。
分项得分(三裁判均分):
| 维度 | 小米mimo | claude-opus-4.6 | 差距 |
|------|---------|-----------------|------|
| M(数学) | 100.0 | 98.3 | +1.7 |
| P(编程) | 98.4 | 97.1 | +1.3 |
| R(推理) | 99.3 | 97.7 | +1.6 |
| A(Agent) | 94.2 | 95.0 | -0.8 |
| L-CN(中文) | 96.7 | 96.3 | +0.4 |
| L-JP(日语) | 96.7 | 95.8 | +0.9 |
| 总分 | 97.56 | 97.08 | +0.48 |
小米mimo 在数学、编程、推理、中日语言全面领先;claude-opus-4.6 在 Agent 维度略胜。两者差距极小(0.48分),但小米mimo 在绝对客观题(数学/编程/推理)上的表现更为稳定。
---
🔬 三裁判评分差异揭示
三裁判(kimi / minimax / qwen)来自国内三家主流 AI 平台,完全匿名互评。裁判间的评分差异本身就揭示了各平台的评判标准。
裁判给分倾向性分析
| 被评模型 | kimi 给分 | minimax 给分 | qwen 给分 | 最大差距 |
|---------|----------|------------|----------|---------|
| claude-opus-4.6 | 94.83 | 100.00 | 96.40 | 5.17 |
| 小米mimo | 95.83 | 99.17 | 97.67 | 3.34 |
| gpt-5.4-mini | 96.83 | 92.23 | 96.48 | 4.60 |
| minimax-m2.7 | 96.00 | 95.50 | 88.67 | 7.33 |
| qwen3.6-plus | 93.17 | 96.43 | 96.43 | 3.26 |
| kimi-k2.5 | 95.17 | 92.67 | 91.67 | 3.50 |裁判特征总结
minimax(评分范围:88.67~100.0,均差 ±5.4)
- 对 claude-opus-4.6 和小米mimo 给出了极高评价(满分/接近满分)
- 但对 gpt-5.4-mini(92.23)和 kimi-k2.5(92.67)明显更严
- 体现了对顶级模型(claude/新模型)的强烈偏好qwen(评分范围:88.67~97.67,均差 ±3.8)
- 对 minimax-m2.7 打出所有评分中的最低分 88.67(与 minimax 给自己打 95.5 相差 6.8 分)
- 对 qwen3.6-plus 评分公道(96.43),与 minimax 完全一致
- 总体最稳定,但对国内竞品(minimax)有明显的区分度kimi(评分范围:91.67~96.83,均差 ±2.4)
- 最稳定的裁判,三裁判中波动最小
- 对 gpt-5.4-mini 打出最高分(96.83),体现了对小型高效模型的认可
- 对 kimi-k2.5 自身的评分(95.17)略低于 minimax 对 kimi 的评分(92.67),说明自评更严、他评更宽
---
维度细分排名
M(数学)— 5 题
| # | 模型 | 均分 |
|---|------|------|
| 🥇 | 小米mimo / claude-opus-4.6 / qwen3.6-plus / gpt-5.4-mini | ~100 |
| #2 | kimi-k2.5 | ~99 |
| #3 | minimax-m2.7 | ~98 |
数学题各模型高度一致,均接近满分,区分度较低。
P(编程)— 7 题
| # | 模型 | 均分 |
|---|------|------|
| 🥇 | 小米mimo | ~98.4 |
| 🥈 | claude-opus-4.6 | ~97.1 |
| 🥉 | gpt-5.4-mini | ~95.8 |
编程题是主要区分维度之一。小米mimo 领先 claude-opus-4.6 约 1.3 分。
R(推理)— 5 题
| # | 模型 | 均分 |
|---|------|------|
| 🥇 | 小米mimo | ~99.3 |
| 🥈 | claude-opus-4.6 | ~97.7 |
| 🥉 | gpt-5.4-mini | ~98.0 |
推理题区分度适中,各模型均表现优秀。
A(Agent)— 7 题
| # | 模型 | 均分 |
|---|------|------|
| 🥇 | claude-opus-4.6 | ~95.0 |
| 🥈 | 小米mimo | ~94.2 |
| 🥉 | gpt-5.4-mini | ~91.1 |
Agent(工具使用/任务规划)是本次测试中裁判分歧最大的维度。claude-opus-4.6 凭借其出色的工具调用和任务拆解能力在此维度夺冠。
L-CN(中文语言)— 4 题
| # | 模型 | 均分 |
|---|------|------|
| 🥇 | 小米mimo | ~96.7 |
| 🥈 | gpt-5.4-mini | ~95.0 |
| 🥉 | claude-opus-4.6 | ~96.3 |
中文语言题中,小米mimo 领先,体现了对中文语境和文化表达的深度理解。
L-JP(日语语言)— 6 题
| # | 模型 | 均分 |
|---|------|------|
| 🥇 | 小米mimo | ~96.7 |
| 🥈 | claude-opus-4.6 | ~95.8 |
| 🥉 | gpt-5.4 | ~94.6 |
日语题中,小米mimo 同样领先,领先幅度 0.9 分。
---
与 Round 2 的变化
| 变化项 | Round 2 | Round 3 |
|--------|---------|---------|
| 裁判数 | 2(Opus 4.6 + GPT-5.4) | 3(kimi + minimax + qwen) |
| 选手数 | 13 | 8 |
| 评分机制 | 双裁判平均 | 三裁判平均(部分双裁判) |
| 裁判构成 | 海外模型裁判 | 国内三强互评 |
| 冠军 | claude-sonnet-4.6(928.2) | 小米mimo(97.56) |Round 3 由中国本土三强 AI(kimi + minimax + qwen) 担任裁判,且裁判自己也参赛,最大程度保证了评分的本土语境理解能力权重——日语题、中文题由最懂这些语言的模型来评判。
---
方法论说明
测试设计
- 题库:30 题 v2,含 6 个维度(M 数学 / P 编程 / R 推理 / A Agent / L-CN 中文 / L-JP 日语)
- 选手:8 个模型,全部匿名(编号 Model-A ~ Model-H)
- 裁判:kimi-k2.5 / minimax-m2.7 / qwen3.5-plus,对模型身份完全不知情
- 评分方式:每个裁判对全部 30 题打分,输出 JSON 格式得分公平性保证
1. 完全匿名:裁判只知道"Model-A""Model-B"这样的编号,不知道哪个是哪个模型
2. 互评机制:裁判自己也参赛,避免"裁判特权"——评分者的得分取决于其他裁判对其的评分
3. 三裁判冗余:任何单裁判的偏颇都会被其他两个裁判的评分平滑掉
4. 答案 key 独立:评分用的答案 key 由人工专家审核,裁判只负责对照 key 打分
---
裁判给分稳定性排行
| 裁判 | 给分标准差(对所有模型) | 特征 |
|------|----------------------|------|
| 🥇 kimi | ±2.4 | 最稳定,最公正 |
| 🥈 qwen | ±3.8 | 较稳定,对 minimax 偏严 |
| 🥉 minimax | ±5.4 | 波动最大,对顶级模型偏心 |
kimi-k2.5 是最稳定的裁判,给分波动最小,是三裁判评分体系中的"压舱石"。
---
版权声明:本文为 Will AI Lab(will-ai-blog)原创,转载需注明出处。
---
📊 详细图表
- Benchmark 总榜(Groq免费模型对比) — 含3裁判详细评分
- MiMo-V2 三兄弟完整评测(含全部模型对比) — 11模型×6维度完整分析
- 评测方法论 — 30题设计、评分rubric、裁判说明