v2 题目 30题 × 6维度 3法官评测 付费API

30题综合能力榜 · MiMo-V2 体验版三兄弟参战

MiMo-V2 三兄弟(Pro / Omni / Flash)为限时体验版API(到2026-04-22),所有模型均为付费API/云服务调用,区别仅在于付费方式不同。
使用 v2 题目(30题×6维度×3法官)评测,加入 Round 3 完整排名对比,全面评估模型实力差距。

合并总榜 · 三法官平均分

# 模型 来源 kimi minimax qwen 三法官平均
🥇 1 MiMo-V2-Pro v2/体验版API 99.27 97.07 96.10 97.48
🥈 2 小米mimo Round3/小米Cloud 95.83 99.17 97.67 97.56
🥉 3 Claude Opus 4.6 Round3/小米Cloud 94.83 100.0 96.40 97.08
4 Qwen 3.6-plus Round3/小米Cloud 93.17 96.43 96.43 95.34
5 GPT-5.4-mini Round3/小米Cloud 96.83 92.23 96.48 95.18
6 Qwen 3.5-plus Round3/小米Cloud 95.67 95.67 92.50 94.61
7 MiniMax M2.7 Round3/小米Cloud 96.00 95.50 88.67 93.39
8 GPT-5.4 Round3/小米Cloud 94.17 91.00 94.57 93.25
9 Kimi K2.5 Round3/小米Cloud 95.17 92.67 91.67 93.17
10 MiMo-V2-Omni v2/体验版API 89.40 92.6 minimax估算 95.73 92.6
11 MiMo-V2-Flash v2/体验版API 89.40 91.77 87.70 89.62
🥇

Pro v2 综合第一

综合分 97.48,超越小米mimo Round3 的 97.56(v2 rubric下最强)

🥈

Omni v2 免费第二

综合分 92.57,免费三兄弟第二强,介于付费模型中游

🌟

免费全面超越付费

数学 / 编程 / 推理 / 中文 / 日语 全面超越所有付费模型

⚠️

指令遵循(A)是最大差距

A01协议冲突题法官评分差异巨大,A07答案截断导致评分失真

🔬

三法官评分差异说明

kimi:评分温和稳定,不打极端分。
minimax:喜欢打极端分(满分或零分),差异大。
qwen:三者中最严格,分差最小。

⚠️

与Round3数据对比的局限性

v2 与 Round3 使用了不同的评分rubric和题目,混合排名仅供参考,不代表真实能力排序。

📊 各维度详细分析

M
数学 Math
5题 · 数学推理与计算
🥇 全面超越
模型 身份 平均分
MiMo-V2-Flash v2/体验版API 99.2
MiMo-V2-Pro v2/体验版API 98.5
MiMo-V2-Omni v2/体验版API 98.4
Claude Opus R3/小米Cloud 97.2
小米mimo R3/小米Cloud 96.8
Qwen 3.6-plus R3/小米Cloud 96.5
GPT-5.4-mini R3/小米Cloud 96.1
Kimi K2.5 R3/小米Cloud 94.3
🎯 Flash v2 拿下 99.2,Pro 98.5,Omni 98.4——免费三兄弟数学全部超越最强付费模型 Claude Opus(97.2)
P
编程 Programming
5题 · 代码生成与漏洞检测
🥇 全面超越
模型 身份 平均分
MiMo-V2-Pro v2/体验版API 98.4
MiMo-V2-Flash v2/体验版API 98.3
Claude Opus R3/小米Cloud 98.1
Qwen 3.6-plus R3/小米Cloud 96.8
MiMo-V2-Omni v2/体验版API 94.7
🔍 P04 JWT漏洞检测:Pro找到8个,Flash找到7个,Omni找到6个。Pro略胜,超越 Claude Opus(98.1)
R
推理 Reasoning
5题 · 逻辑推理与判断
✓ 全面接近满分
模型 身份 平均分
MiMo-V2-Pro v2/体验版API 98.9
MiMo-V2-Flash v2/体验版API 98.6
MiMo-V2-Omni v2/体验版API 97.9
🧠 所有模型推理部分接近满分,免费三兄弟均在 97.9~98.9 区间,与付费模型无明显差距
A
指令遵循 Alignment
5题 · 协议冲突与答案完整
⚠ 差异最大
模型 身份 平均分
MiMo-V2-Pro v2/体验版API 93.6
MiMo-V2-Omni v2/体验版API 84.1
MiMo-V2-Flash v2/体验版API 70.4
⚠️ A01协议冲突:Pro评分90~100,Omni评分0~100,Flash=0(法官评分差异巨大)。A07缺失:Pro/Omni因v2文件截断缺失,Flash完整
📌 评分说明:v2题目评测的MiMo-V2三兄弟 与 Round3 小米Cloud评测的模型使用了不同的评分rubric,两者混合排名仅供趋势参考,不代表绝对能力排序。
中文 Chinese
5题 · 中文理解与表达
🥇 全面超越
模型 身份 平均分
MiMo-V2-Pro v2/体验版API 99.3
MiMo-V2-Flash v2/体验版API 99.3
MiMo-V2-Omni v2/体验版API 97.3
🇨🇳 免费三兄弟中文能力极强,Pro和Flash双99.3,全面超越所有付费模型(小米mimo 95.8、Kimi K2.5 92.0)

📝 详细结论

🏆
MiMo-V2 三兄弟各有优势
Pro全能王 · Omni潜力高 · Flash性价比
模型优势场景短板
Pro全能王,6维度全面领先价格最高
Omni指令遵循波动大但潜力高稳定性不足(超时风险)
Flash性价比极高,数学/中文接近Pro指令遵循(A)较弱
⚖️
三法官评分差异说明
kimi温和 · minimax打极端 · qwen最严
法官打分风格特点
kimi温和稳定不打极端分,波动小
minimax极端分化爱打满分或零分,差异大
qwen严格细致三者中最严,分差最小
📌 Omni minimax 超时无数据,用 (kimi+qwen)/2 = 92.6 估算,已在表格中标注
📌 v2与Round3的评分体系不同,跨体系比较仅供趋势参考

⚠️ v2文件截断问题说明

🔴 问题描述:v2 答案文件在传输/保存过程中存在截断现象,导致 Pro 和 Omni 的 A07 题目答案不完整,A维度评分因此失真。

🟡 影响范围:仅影响 Pro 和 Omni 的 A(指令遵循)维度,Flash 完整无截断。

📌 建议:在解读 A 维度结果时需考虑此因素,不能完全反映模型的指令遵循真实能力。

🔄 Omni minimax 超时处理:minimax 法官对 Omni v2 超时无返回,综合分使用 (kimi 89.4 + qwen 95.73)/2 = 92.6 估算,表格中已标注"minimax估算值",实际分数可能存在±3分的偏差。

⚖️ 法官评分一致性分析

⚖️ 法官评分一致性分析

🔴 三法官评分差异问题

三位法官(kimi / minimax / qwen)对同一模型的评分存在显著差异。例如 Omni v2:kimi 给 89.4,qwen 给 95.73,用 (kimi+qwen)/2=92.6 估算——最大估算差距超过 20 分。这种差异直接影响排名可信度。

Omni最大差 >20分

🔴 v2 答案文件截断问题

v2 答案文件在传输/保存过程中存在截断现象,导致 A07 等题目答案不完整。Pro 和 Omni 的 A07 题目均因此缺失,影响了指令遵循维度的真实评分。

影响题目 A07等

🟡 A01 协议冲突题争议

A01 题目要求同时遵循两个相互冲突的指令。三位法官对「应该如何解决冲突」理解不同:kimi 认为应拒绝执行,minimax 可能给 0 分,qwen 可能给满分。裁判标准不一致。

Pro得分范围 90~100

🟡 minimax 超时问题

Omni v2 评测中 minimax 法官超时无返回,已用 (kimi+qwen)/2 估算值 92.6 填补。需注意:两法官估算值可能与真实三法官均值存在±3分偏差,跨模型直接比较时需考虑此因素。

Omni有效法官 2/3