30 题 LLM 综合能力榜

Round 3 · 8 选手 × 三裁判盲评 | 三裁判（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus）匿名互评

TL;DR

这是 8 模型 × 30 题 × 3 裁判的全面重测。最大亮点：小米mimo（Model-A）以 97.56 分夺冠，超越 claude-opus-4.6（97.08）和 gpt-5.4-mini（95.18）。

三裁判盲测的核心价值：由国内三强（kimi + minimax + qwen）组成裁判组，在完全匿名条件下对所有模型打分。裁判自己也参赛、也被评，最大程度保证公平性。

---

总排名：8 选手 × 30 题 × 三裁判均分（全部完整）

|---|------|-----------|------|---------|------|

| 🥇 | 小米mimo 🟢 | 97.56 | 95.83 | 99.17 | 97.67 |

| 🥈 | claude-opus-4.6 | 97.08 | 94.83 | 100.00 | 96.40 |

| 🥉 | gpt-5.4-mini | 95.18 | 96.83 | 92.23 | 96.48 |

| #4 | qwen3.6-plus | 95.34 | 93.17 | 96.43 | 96.43 |

| #5 | qwen3.5-plus | 94.61 | 95.67 | 95.67 | 92.50 |

| #6 | gpt-5.4 | 93.25 | 94.17 | 91.00 | 94.57 |

| #7 | minimax-m2.7 | 93.39 | 96.00 | 95.50 | 88.67 |

| #8 | kimi-k2.5 | 93.17 | 95.17 | 92.67 | 91.67 |

✅ 所有 8 模型 × 3 裁判 = 24 个评分全部完成，无缺失数据。

kimi 与 minimax 对 Model-G（qwen3.5-plus）评分罕见一致：两者都给出了 95.67 分，是三裁判体系中最稳定的双裁判共识。

---

🏆 小米mimo 夺冠分析

小米mimo 在三裁判盲测中以 97.56 分超越 claude-opus-4.6 的 97.08 分，跃居第一。

分项得分（三裁判均分）：

| 维度 | 小米mimo | claude-opus-4.6 | 差距 |

|------|---------|-----------------|------|

| M（数学） | 100.0 | 98.3 | +1.7 |

| P（编程） | 98.4 | 97.1 | +1.3 |

| R（推理） | 99.3 | 97.7 | +1.6 |

| A（Agent） | 94.2 | 95.0 | -0.8 |

| L-CN（中文） | 96.7 | 96.3 | +0.4 |

| L-JP（日语） | 96.7 | 95.8 | +0.9 |

| 总分 | 97.56 | 97.08 | +0.48 |

小米mimo 在数学、编程、推理、中日语言全面领先；claude-opus-4.6 在 Agent 维度略胜。两者差距极小（0.48分），但小米mimo 在绝对客观题（数学/编程/推理）上的表现更为稳定。

---

🔬 三裁判评分差异揭示

三裁判（kimi / minimax / qwen）来自国内三家主流 AI 平台，完全匿名互评。裁判间的评分差异本身就揭示了各平台的评判标准。

裁判给分倾向性分析

|---------|----------|------------|----------|---------|

| claude-opus-4.6 | 94.83 | 100.00 | 96.40 | 5.17 |

| 小米mimo | 95.83 | 99.17 | 97.67 | 3.34 |

| gpt-5.4-mini | 96.83 | 92.23 | 96.48 | 4.60 |

| minimax-m2.7 | 96.00 | 95.50 | 88.67 | 7.33 |

| qwen3.6-plus | 93.17 | 96.43 | 96.43 | 3.26 |

| kimi-k2.5 | 95.17 | 92.67 | 91.67 | 3.50 |

裁判特征总结

minimax（评分范围：88.67～100.0，均差 ±5.4）

- 对 claude-opus-4.6 和小米mimo 给出了极高评价（满分/接近满分）

- 但对 gpt-5.4-mini（92.23）和 kimi-k2.5（92.67）明显更严

- 体现了对顶级模型（claude/新模型）的强烈偏好

qwen（评分范围：88.67～97.67，均差 ±3.8）

- 对 minimax-m2.7 打出所有评分中的最低分 88.67（与 minimax 给自己打 95.5 相差 6.8 分）

- 对 qwen3.6-plus 评分公道（96.43），与 minimax 完全一致

- 总体最稳定，但对国内竞品（minimax）有明显的区分度

kimi（评分范围：91.67～96.83，均差 ±2.4）

- 最稳定的裁判，三裁判中波动最小

- 对 gpt-5.4-mini 打出最高分（96.83），体现了对小型高效模型的认可

- 对 kimi-k2.5 自身的评分（95.17）略低于 minimax 对 kimi 的评分（92.67），说明自评更严、他评更宽

---

维度细分排名

M（数学）— 5 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo / claude-opus-4.6 / qwen3.6-plus / gpt-5.4-mini | ~100 |

| #2 | kimi-k2.5 | ~99 |

| #3 | minimax-m2.7 | ~98 |

数学题各模型高度一致，均接近满分，区分度较低。

P（编程）— 7 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~98.4 |

| 🥈 | claude-opus-4.6 | ~97.1 |

| 🥉 | gpt-5.4-mini | ~95.8 |

编程题是主要区分维度之一。小米mimo 领先 claude-opus-4.6 约 1.3 分。

R（推理）— 5 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~99.3 |

| 🥈 | claude-opus-4.6 | ~97.7 |

| 🥉 | gpt-5.4-mini | ~98.0 |

推理题区分度适中，各模型均表现优秀。

A（Agent）— 7 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | claude-opus-4.6 | ~95.0 |

| 🥈 | 小米mimo | ~94.2 |

| 🥉 | gpt-5.4-mini | ~91.1 |

Agent（工具使用/任务规划）是本次测试中裁判分歧最大的维度。claude-opus-4.6 凭借其出色的工具调用和任务拆解能力在此维度夺冠。

L-CN（中文语言）— 4 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~96.7 |

| 🥈 | gpt-5.4-mini | ~95.0 |

| 🥉 | claude-opus-4.6 | ~96.3 |

中文语言题中，小米mimo 领先，体现了对中文语境和文化表达的深度理解。

L-JP（日语语言）— 6 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~96.7 |

| 🥈 | claude-opus-4.6 | ~95.8 |

| 🥉 | gpt-5.4 | ~94.6 |

日语题中，小米mimo 同样领先，领先幅度 0.9 分。

---

与 Round 2 的变化

| 变化项 | Round 2 | Round 3 |

|--------|---------|---------|

| 裁判数 | 2（Opus 4.6 + GPT-5.4） | 3（kimi + minimax + qwen） |

| 选手数 | 13 | 8 |

| 评分机制 | 双裁判平均 | 三裁判平均（部分双裁判） |

| 裁判构成 | 海外模型裁判 | 国内三强互评 |

| 冠军 | claude-sonnet-4.6（928.2） | 小米mimo（97.56） |

Round 3 由中国本土三强 AI（kimi + minimax + qwen） 担任裁判，且裁判自己也参赛，最大程度保证了评分的本土语境理解能力权重——日语题、中文题由最懂这些语言的模型来评判。

---

方法论说明

测试设计

- 题库：30 题 v2，含 6 个维度（M 数学 / P 编程 / R 推理 / A Agent / L-CN 中文 / L-JP 日语）

- 选手：8 个模型，全部匿名（编号 Model-A ~ Model-H）

- 裁判：kimi-k2.5 / minimax-m2.7 / qwen3.5-plus，对模型身份完全不知情

- 评分方式：每个裁判对全部 30 题打分，输出 JSON 格式得分

公平性保证

1. 完全匿名：裁判只知道"Model-A""Model-B"这样的编号，不知道哪个是哪个模型

2. 互评机制：裁判自己也参赛，避免"裁判特权"——评分者的得分取决于其他裁判对其的评分

3. 三裁判冗余：任何单裁判的偏颇都会被其他两个裁判的评分平滑掉

4. 答案 key 独立：评分用的答案 key 由人工专家审核，裁判只负责对照 key 打分

---

裁判给分稳定性排行

| 裁判 | 给分标准差（对所有模型） | 特征 |

|------|----------------------|------|

| 🥇 kimi | ±2.4 | 最稳定，最公正 |

| 🥈 qwen | ±3.8 | 较稳定，对 minimax 偏严 |

| 🥉 minimax | ±5.4 | 波动最大，对顶级模型偏心 |

kimi-k2.5 是最稳定的裁判，给分波动最小，是三裁判评分体系中的"压舱石"。

---

版权声明：本文为 Will AI Lab（will-ai-blog）原创，转载需注明出处。

---

📊 详细图表

- Benchmark 总榜（Groq免费模型对比） — 含3裁判详细评分

- MiMo-V2 三兄弟完整评测（含全部模型对比） — 11模型×6维度完整分析

- 评测方法论 — 30题设计、评分rubric、裁判说明

30 题 LLM 综合能力榜

Round 3 · 8 选手 × 三裁判盲评 | 三裁判（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus）匿名互评

TL;DR

这是 8 模型 × 30 题 × 3 裁判的全面重测。最大亮点：小米mimo（Model-A）以 97.56 分夺冠，超越 claude-opus-4.6（97.08）和 gpt-5.4-mini（95.18）。

---

总排名：8 选手 × 30 题 × 三裁判均分（全部完整）

|---|------|-----------|------|---------|------|

| 🥇 | 小米mimo 🟢 | 97.56 | 95.83 | 99.17 | 97.67 |

| 🥈 | claude-opus-4.6 | 97.08 | 94.83 | 100.00 | 96.40 |

| 🥉 | gpt-5.4-mini | 95.18 | 96.83 | 92.23 | 96.48 |

| #4 | qwen3.6-plus | 95.34 | 93.17 | 96.43 | 96.43 |

| #5 | qwen3.5-plus | 94.61 | 95.67 | 95.67 | 92.50 |

| #6 | gpt-5.4 | 93.25 | 94.17 | 91.00 | 94.57 |

| #7 | minimax-m2.7 | 93.39 | 96.00 | 95.50 | 88.67 |

| #8 | kimi-k2.5 | 93.17 | 95.17 | 92.67 | 91.67 |

✅ 所有 8 模型 × 3 裁判 = 24 个评分全部完成，无缺失数据。

kimi 与 minimax 对 Model-G（qwen3.5-plus）评分罕见一致：两者都给出了 95.67 分，是三裁判体系中最稳定的双裁判共识。

---

🏆 小米mimo 夺冠分析

小米mimo 在三裁判盲测中以 97.56 分超越 claude-opus-4.6 的 97.08 分，跃居第一。

分项得分（三裁判均分）：

| 维度 | 小米mimo | claude-opus-4.6 | 差距 |

|------|---------|-----------------|------|

| M（数学） | 100.0 | 98.3 | +1.7 |

| P（编程） | 98.4 | 97.1 | +1.3 |

| R（推理） | 99.3 | 97.7 | +1.6 |

| A（Agent） | 94.2 | 95.0 | -0.8 |

| L-CN（中文） | 96.7 | 96.3 | +0.4 |

| L-JP（日语） | 96.7 | 95.8 | +0.9 |

| 总分 | 97.56 | 97.08 | +0.48 |

---

🔬 三裁判评分差异揭示

三裁判（kimi / minimax / qwen）来自国内三家主流 AI 平台，完全匿名互评。裁判间的评分差异本身就揭示了各平台的评判标准。

裁判给分倾向性分析

|---------|----------|------------|----------|---------|

| claude-opus-4.6 | 94.83 | 100.00 | 96.40 | 5.17 |

| 小米mimo | 95.83 | 99.17 | 97.67 | 3.34 |

| gpt-5.4-mini | 96.83 | 92.23 | 96.48 | 4.60 |

| minimax-m2.7 | 96.00 | 95.50 | 88.67 | 7.33 |

| qwen3.6-plus | 93.17 | 96.43 | 96.43 | 3.26 |

| kimi-k2.5 | 95.17 | 92.67 | 91.67 | 3.50 |

裁判特征总结

minimax（评分范围：88.67～100.0，均差 ±5.4）

- 对 claude-opus-4.6 和小米mimo 给出了极高评价（满分/接近满分）

- 但对 gpt-5.4-mini（92.23）和 kimi-k2.5（92.67）明显更严

- 体现了对顶级模型（claude/新模型）的强烈偏好

qwen（评分范围：88.67～97.67，均差 ±3.8）

- 对 minimax-m2.7 打出所有评分中的最低分 88.67（与 minimax 给自己打 95.5 相差 6.8 分）

- 对 qwen3.6-plus 评分公道（96.43），与 minimax 完全一致

- 总体最稳定，但对国内竞品（minimax）有明显的区分度

kimi（评分范围：91.67～96.83，均差 ±2.4）

- 最稳定的裁判，三裁判中波动最小

- 对 gpt-5.4-mini 打出最高分（96.83），体现了对小型高效模型的认可

- 对 kimi-k2.5 自身的评分（95.17）略低于 minimax 对 kimi 的评分（92.67），说明自评更严、他评更宽

---

维度细分排名

M（数学）— 5 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo / claude-opus-4.6 / qwen3.6-plus / gpt-5.4-mini | ~100 |

| #2 | kimi-k2.5 | ~99 |

| #3 | minimax-m2.7 | ~98 |

数学题各模型高度一致，均接近满分，区分度较低。

P（编程）— 7 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~98.4 |

| 🥈 | claude-opus-4.6 | ~97.1 |

| 🥉 | gpt-5.4-mini | ~95.8 |

编程题是主要区分维度之一。小米mimo 领先 claude-opus-4.6 约 1.3 分。

R（推理）— 5 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~99.3 |

| 🥈 | claude-opus-4.6 | ~97.7 |

| 🥉 | gpt-5.4-mini | ~98.0 |

推理题区分度适中，各模型均表现优秀。

A（Agent）— 7 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | claude-opus-4.6 | ~95.0 |

| 🥈 | 小米mimo | ~94.2 |

| 🥉 | gpt-5.4-mini | ~91.1 |

Agent（工具使用/任务规划）是本次测试中裁判分歧最大的维度。claude-opus-4.6 凭借其出色的工具调用和任务拆解能力在此维度夺冠。

L-CN（中文语言）— 4 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~96.7 |

| 🥈 | gpt-5.4-mini | ~95.0 |

| 🥉 | claude-opus-4.6 | ~96.3 |

中文语言题中，小米mimo 领先，体现了对中文语境和文化表达的深度理解。

L-JP（日语语言）— 6 题

| # | 模型 | 均分 |

|---|------|------|

| 🥇 | 小米mimo | ~96.7 |

| 🥈 | claude-opus-4.6 | ~95.8 |

| 🥉 | gpt-5.4 | ~94.6 |

日语题中，小米mimo 同样领先，领先幅度 0.9 分。

---

与 Round 2 的变化

| 变化项 | Round 2 | Round 3 |

|--------|---------|---------|

| 裁判数 | 2（Opus 4.6 + GPT-5.4） | 3（kimi + minimax + qwen） |

| 选手数 | 13 | 8 |

| 评分机制 | 双裁判平均 | 三裁判平均（部分双裁判） |

| 裁判构成 | 海外模型裁判 | 国内三强互评 |

| 冠军 | claude-sonnet-4.6（928.2） | 小米mimo（97.56） |

---

方法论说明

测试设计

- 题库：30 题 v2，含 6 个维度（M 数学 / P 编程 / R 推理 / A Agent / L-CN 中文 / L-JP 日语）

- 选手：8 个模型，全部匿名（编号 Model-A ~ Model-H）

- 裁判：kimi-k2.5 / minimax-m2.7 / qwen3.5-plus，对模型身份完全不知情

- 评分方式：每个裁判对全部 30 题打分，输出 JSON 格式得分

公平性保证

1. 完全匿名：裁判只知道"Model-A""Model-B"这样的编号，不知道哪个是哪个模型

2. 互评机制：裁判自己也参赛，避免"裁判特权"——评分者的得分取决于其他裁判对其的评分

3. 三裁判冗余：任何单裁判的偏颇都会被其他两个裁判的评分平滑掉

4. 答案 key 独立：评分用的答案 key 由人工专家审核，裁判只负责对照 key 打分

---

裁判给分稳定性排行

| 裁判 | 给分标准差（对所有模型） | 特征 |

|------|----------------------|------|

| 🥇 kimi | ±2.4 | 最稳定，最公正 |

| 🥈 qwen | ±3.8 | 较稳定，对 minimax 偏严 |

| 🥉 minimax | ±5.4 | 波动最大，对顶级模型偏心 |

kimi-k2.5 是最稳定的裁判，给分波动最小，是三裁判评分体系中的"压舱石"。

---

版权声明：本文为 Will AI Lab（will-ai-blog）原创，转载需注明出处。

---

📊 详细图表

- Benchmark 总榜（Groq免费模型对比） — 含3裁判详细评分

- MiMo-V2 三兄弟完整评测（含全部模型对比） — 11模型×6维度完整分析

- 评测方法论 — 30题设计、评分rubric、裁判说明

30 题 LLM 综合能力榜

TL;DR

总排名：8 选手 × 30 题 × 三裁判均分（全部完整）

🏆 小米mimo 夺冠分析

🔬 三裁判评分差异揭示

裁判给分倾向性分析

裁判特征总结

维度细分排名

M（数学）— 5 题

P（编程）— 7 题

R（推理）— 5 题

A（Agent）— 7 题

L-CN（中文语言）— 4 题

L-JP（日语语言）— 6 题

与 Round 2 的变化

方法论说明

测试设计

公平性保证

裁判给分稳定性排行

📊 详细图表

🔗 Related Posts

30 题 LLM 综合能力榜

TL;DR

总排名：8 选手 × 30 题 × 三裁判均分（全部完整）

🏆 小米mimo 夺冠分析

🔬 三裁判评分差异揭示

裁判给分倾向性分析

裁判特征总结

维度细分排名

M（数学）— 5 题

P（编程）— 7 题

R（推理）— 5 题

A（Agent）— 7 题

L-CN（中文语言）— 4 题

L-JP（日语语言）— 6 题

与 Round 2 的变化

方法论说明

测试设计

公平性保证

裁判给分稳定性排行

📊 详细图表

🔗 Related Posts