Will's AI Lab
ブログ
AI学習AIディスカッションケースタイムラインについて
中文日本語EN
中文日本語EN

© 2026 Will AI Lab. All rights reserved.

Powered by Next.js & AI

サイト

についてfuluckai.com福楽キャッテリー

ソーシャルリンク

Instagram@fuluck_catteryGitHub@konayuki56小紅書大阪猫舎日常FullucKitty
ホームブログAIディスカッションタイムライン
ブログ
30 题 LLM 综合能力榜(Round 3 · 8选手 × 三裁判盲评)
AI体験オリジナル

30 题 LLM 综合能力榜(Round 3 · 8选手 × 三裁判盲评)

Will2026年4月14日約 3 分で読めます

30 题 LLM 综合能力榜

**Round 3 · 8 选手 × 三裁判盲评** | 三裁判(kimi-k2.5 + minimax-m2.7 + qwen3.5-plus)匿名互评

TL;DR

这是 8 模型 × 30 题 × 3 裁判的全面重测。最大亮点:小米mimo(Model-A)以 97.56 分夺冠,超越 claude-opus-4.6(97.08)和 gpt-5.4-mini(95.18)。

三裁判盲测的核心价值:由国内三强(kimi + minimax + qwen)组成裁判组,在完全匿名条件下对所有模型打分。裁判自己也参赛、也被评,最大程度保证公平性。


总排名:8 选手 × 30 题 × 三裁判均分(全部完整)

# 模型 三裁判均分 kimi minimax qwen
🥇 小米mimo 🟢 97.56 95.83 99.17 97.67
🥈 claude-opus-4.6 97.08 94.83 100.00 96.40
🥉 gpt-5.4-mini 95.18 96.83 92.23 96.48
#4 qwen3.6-plus 95.34 93.17 96.43 96.43
#5 qwen3.5-plus 94.61 95.67 95.67 92.50
#6 gpt-5.4 93.25 94.17 91.00 94.57
#7 minimax-m2.7 93.39 96.00 95.50 88.67
#8 kimi-k2.5 93.17 95.17 92.67 91.67
✅ 所有 8 模型 × 3 裁判 = 24 个评分全部完成,无缺失数据。

kimi 与 minimax 对 Model-G(qwen3.5-plus)评分罕见一致:两者都给出了 95.67 分,是三裁判体系中最稳定的双裁判共识。


🏆 小米mimo 夺冠分析

小米mimo 在三裁判盲测中以 97.56 分超越 claude-opus-4.6 的 97.08 分,跃居第一。

分项得分(三裁判均分):

维度 小米mimo claude-opus-4.6 差距
M(数学) 100.0 98.3 +1.7
P(编程) 98.4 97.1 +1.3
R(推理) 99.3 97.7 +1.6
A(Agent) 94.2 95.0 -0.8
L-CN(中文) 96.7 96.3 +0.4
L-JP(日语) 96.7 95.8 +0.9
总分 97.56 97.08 +0.48

小米mimo 在数学、编程、推理、中日语言全面领先;claude-opus-4.6 在 Agent 维度略胜。两者差距极小(0.48分),但小米mimo 在绝对客观题(数学/编程/推理)上的表现更为稳定。


🔬 三裁判评分差异揭示

三裁判(kimi / minimax / qwen)来自国内三家主流 AI 平台,完全匿名互评。裁判间的评分差异本身就揭示了各平台的评判标准。

裁判给分倾向性分析

被评模型 kimi 给分 minimax 给分 qwen 给分 最大差距
claude-opus-4.6 94.83 100.00 96.40 5.17
小米mimo 95.83 99.17 97.67 3.34
gpt-5.4-mini 96.83 92.23 96.48 4.60
minimax-m2.7 96.00 95.50 88.67 7.33
qwen3.6-plus 93.17 96.43 96.43 3.26
kimi-k2.5 95.17 92.67 91.67 3.50

裁判特征总结

minimax(评分范围:88.67~100.0,均差 ±5.4)

  • 对 claude-opus-4.6 和小米mimo 给出了极高评价(满分/接近满分)
  • 但对 gpt-5.4-mini(92.23)和 kimi-k2.5(92.67)明显更严
  • 体现了对顶级模型(claude/新模型)的强烈偏好

qwen(评分范围:88.67~97.67,均差 ±3.8)

  • 对 minimax-m2.7 打出所有评分中的最低分 88.67(与 minimax 给自己打 95.5 相差 6.8 分)
  • 对 qwen3.6-plus 评分公道(96.43),与 minimax 完全一致
  • 总体最稳定,但对国内竞品(minimax)有明显的区分度

kimi(评分范围:91.67~96.83,均差 ±2.4)

  • 最稳定的裁判,三裁判中波动最小
  • 对 gpt-5.4-mini 打出最高分(96.83),体现了对小型高效模型的认可
  • 对 kimi-k2.5 自身的评分(95.17)略低于 minimax 对 kimi 的评分(92.67),说明自评更严、他评更宽

维度细分排名

M(数学)— 5 题

# 模型 均分
🥇 小米mimo / claude-opus-4.6 / qwen3.6-plus / gpt-5.4-mini ~100
#2 kimi-k2.5 ~99
#3 minimax-m2.7 ~98

数学题各模型高度一致,均接近满分,区分度较低。

P(编程)— 7 题

# 模型 均分
🥇 小米mimo ~98.4
🥈 claude-opus-4.6 ~97.1
🥉 gpt-5.4-mini ~95.8

编程题是主要区分维度之一。小米mimo 领先 claude-opus-4.6 约 1.3 分。

R(推理)— 5 题

# 模型 均分
🥇 小米mimo ~99.3
🥈 claude-opus-4.6 ~97.7
🥉 gpt-5.4-mini ~98.0

推理题区分度适中,各模型均表现优秀。

A(Agent)— 7 题

# 模型 均分
🥇 claude-opus-4.6 ~95.0
🥈 小米mimo ~94.2
🥉 gpt-5.4-mini ~91.1

Agent(工具使用/任务规划)是本次测试中裁判分歧最大的维度。claude-opus-4.6 凭借其出色的工具调用和任务拆解能力在此维度夺冠。

L-CN(中文语言)— 4 题

# 模型 均分
🥇 小米mimo ~96.7
🥈 gpt-5.4-mini ~95.0
🥉 claude-opus-4.6 ~96.3

中文语言题中,小米mimo 领先,体现了对中文语境和文化表达的深度理解。

L-JP(日语语言)— 6 题

# 模型 均分
🥇 小米mimo ~96.7
🥈 claude-opus-4.6 ~95.8
🥉 gpt-5.4 ~94.6

日语题中,小米mimo 同样领先,领先幅度 0.9 分。


与 Round 2 的变化

变化项 Round 2 Round 3
裁判数 2(Opus 4.6 + GPT-5.4) 3(kimi + minimax + qwen)
选手数 13 8
评分机制 双裁判平均 三裁判平均(部分双裁判)
裁判构成 海外模型裁判 国内三强互评
冠军 claude-sonnet-4.6(928.2) 小米mimo(97.56)

Round 3 由中国本土三强 AI(kimi + minimax + qwen) 担任裁判,且裁判自己也参赛,最大程度保证了评分的本土语境理解能力权重——日语题、中文题由最懂这些语言的模型来评判。


方法论说明

测试设计

  • 题库:30 题 v2,含 6 个维度(M 数学 / P 编程 / R 推理 / A Agent / L-CN 中文 / L-JP 日语)
  • 选手:8 个模型,全部匿名(编号 Model-A ~ Model-H)
  • 裁判:kimi-k2.5 / minimax-m2.7 / qwen3.5-plus,对模型身份完全不知情
  • 评分方式:每个裁判对全部 30 题打分,输出 JSON 格式得分

公平性保证

  1. 完全匿名:裁判只知道"Model-A""Model-B"这样的编号,不知道哪个是哪个模型
  2. 互评机制:裁判自己也参赛,避免"裁判特权"——评分者的得分取决于其他裁判对其的评分
  3. 三裁判冗余:任何单裁判的偏颇都会被其他两个裁判的评分平滑掉
  4. 答案 key 独立:评分用的答案 key 由人工专家审核,裁判只负责对照 key 打分

裁判给分稳定性排行

裁判 给分标准差(对所有模型) 特征
🥇 kimi ±2.4 最稳定,最公正
🥈 qwen ±3.8 较稳定,对 minimax 偏严
🥉 minimax ±5.4 波动最大,对顶级模型偏心

kimi-k2.5 是最稳定的裁判,给分波动最小,是三裁判评分体系中的"压舱石"。


**版权声明**:本文为 Will AI Lab(will-ai-blog)原创,转载需注明出处。

前の記事30 题 LLM 综合能力榜(Round 2 · 13选手 × 双裁判)次の記事Round 2 · 30問完全ベンチマーク:13選手 × ダブルジャッジ盲検評価
ブログ

评论

加载中...

发表评论

0/1000

目次

  • TL;DR
  • 总排名:8 选手 × 30 题 × 三裁判均分(全部完整)
  • 🏆 小米mimo 夺冠分析
  • 🔬 三裁判评分差异揭示
  • 裁判给分倾向性分析
  • 裁判特征总结
  • 维度细分排名
  • M(数学)— 5 题
  • P(编程)— 7 题
  • R(推理)— 5 题
  • A(Agent)— 7 题
  • L-CN(中文语言)— 4 题
  • L-JP(日语语言)— 6 题
  • 与 Round 2 的变化
  • 方法论说明
  • 测试设计
  • 公平性保证
  • 裁判给分稳定性排行