v2 题目 30题 × 6维度 3法官评测付费API

30题综合能力榜 · MiMo-V2 体验版三兄弟参战

MiMo-V2 三兄弟（Pro / Omni / Flash）为限时体验版API（到2026-04-22），所有模型均为付费API/云服务调用，区别仅在于付费方式不同。
使用 v2 题目（30题×6维度×3法官）评测，加入 Round 3 完整排名对比，全面评估模型实力差距。

合并总榜 · 三法官平均分

#	模型	来源	kimi	minimax	qwen	三法官平均
🥇 1	MiMo-V2-Pro	v2/体验版API	99.27	97.07	96.10	97.48
🥈 2	小米mimo	Round3/小米Cloud	95.83	99.17	97.67	97.56
🥉 3	Claude Opus 4.6	Round3/小米Cloud	94.83	100.0	96.40	97.08
4	Qwen 3.6-plus	Round3/小米Cloud	93.17	96.43	96.43	95.34
5	GPT-5.4-mini	Round3/小米Cloud	96.83	92.23	96.48	95.18
6	Qwen 3.5-plus	Round3/小米Cloud	95.67	95.67	92.50	94.61
7	MiniMax M2.7	Round3/小米Cloud	96.00	95.50	88.67	93.39
8	GPT-5.4	Round3/小米Cloud	94.17	91.00	94.57	93.25
9	Kimi K2.5	Round3/小米Cloud	95.17	92.67	91.67	93.17
10	MiMo-V2-Omni	v2/体验版API	89.40	92.6 ^{minimax估算}	95.73	92.6
11	MiMo-V2-Flash	v2/体验版API	89.40	91.77	87.70	89.62

🥇

Pro v2 综合第一

综合分 97.48，超越小米mimo Round3 的 97.56（v2 rubric下最强）

🥈

Omni v2 免费第二

综合分 92.57，免费三兄弟第二强，介于付费模型中游

🌟

免费全面超越付费

数学 / 编程 / 推理 / 中文 / 日语 全面超越所有付费模型

⚠️

指令遵循（A）是最大差距

A01协议冲突题法官评分差异巨大，A07答案截断导致评分失真

🔬

三法官评分差异说明

kimi：评分温和稳定，不打极端分。
minimax：喜欢打极端分（满分或零分），差异大。
qwen：三者中最严格，分差最小。

⚠️

与Round3数据对比的局限性

v2 与 Round3 使用了不同的评分rubric和题目，混合排名仅供参考，不代表真实能力排序。

📊 各维度详细分析

数学 Math

5题 · 数学推理与计算

🥇 全面超越

模型	身份	平均分
MiMo-V2-Flash	v2/体验版API	99.2
MiMo-V2-Pro	v2/体验版API	98.5
MiMo-V2-Omni	v2/体验版API	98.4
Claude Opus	R3/小米Cloud	97.2
小米mimo	R3/小米Cloud	96.8
Qwen 3.6-plus	R3/小米Cloud	96.5
GPT-5.4-mini	R3/小米Cloud	96.1
Kimi K2.5	R3/小米Cloud	94.3

🎯 Flash v2 拿下 99.2，Pro 98.5，Omni 98.4——免费三兄弟数学全部超越最强付费模型 Claude Opus（97.2）

编程 Programming

5题 · 代码生成与漏洞检测

🥇 全面超越

模型	身份	平均分
MiMo-V2-Pro	v2/体验版API	98.4
MiMo-V2-Flash	v2/体验版API	98.3
Claude Opus	R3/小米Cloud	98.1
Qwen 3.6-plus	R3/小米Cloud	96.8
MiMo-V2-Omni	v2/体验版API	94.7

🔍 P04 JWT漏洞检测：Pro找到8个，Flash找到7个，Omni找到6个。Pro略胜，超越 Claude Opus（98.1）

推理 Reasoning

5题 · 逻辑推理与判断

✓ 全面接近满分

模型	身份	平均分
MiMo-V2-Pro	v2/体验版API	98.9
MiMo-V2-Flash	v2/体验版API	98.6
MiMo-V2-Omni	v2/体验版API	97.9

🧠 所有模型推理部分接近满分，免费三兄弟均在 97.9~98.9 区间，与付费模型无明显差距

指令遵循 Alignment

5题 · 协议冲突与答案完整

⚠ 差异最大

模型	身份	平均分
MiMo-V2-Pro	v2/体验版API	93.6
MiMo-V2-Omni	v2/体验版API	84.1
MiMo-V2-Flash	v2/体验版API	70.4

⚠️ A01协议冲突：Pro评分90~100，Omni评分0~100，Flash=0（法官评分差异巨大）。A07缺失：Pro/Omni因v2文件截断缺失，Flash完整
📌 评分说明：v2题目评测的MiMo-V2三兄弟与 Round3 小米Cloud评测的模型使用了不同的评分rubric，两者混合排名仅供趋势参考，不代表绝对能力排序。

中

中文 Chinese

5题 · 中文理解与表达

🥇 全面超越

模型	身份	平均分
MiMo-V2-Pro	v2/体验版API	99.3
MiMo-V2-Flash	v2/体验版API	99.3
MiMo-V2-Omni	v2/体验版API	97.3

🇨🇳 免费三兄弟中文能力极强，Pro和Flash双99.3，全面超越所有付费模型（小米mimo 95.8、Kimi K2.5 92.0）

日

日语 Japanese

5题 · 敬语与表达

🥇 全面超越

模型	身份	平均分
MiMo-V2-Pro	v2/体验版API	99.3
MiMo-V2-Omni	v2/体验版API	97.5
MiMo-V2-Flash	v2/体验版API	94.5

🇯🇵 L05敬语题：Pro全对，Flash/qwen部分失分。免费三兄弟日语能力远超预期，超越大部分付费模型

📝 详细结论

🏆

MiMo-V2 三兄弟各有优势

Pro全能王 · Omni潜力高 · Flash性价比

模型	优势场景	短板
Pro	全能王，6维度全面领先	价格最高
Omni	指令遵循波动大但潜力高	稳定性不足（超时风险）
Flash	性价比极高，数学/中文接近Pro	指令遵循（A）较弱

⚖️

三法官评分差异说明

kimi温和 · minimax打极端 · qwen最严

法官	打分风格	特点
kimi	温和稳定	不打极端分，波动小
minimax	极端分化	爱打满分或零分，差异大
qwen	严格细致	三者中最严，分差最小

📌 Omni minimax 超时无数据，用 (kimi+qwen)/2 = 92.6 估算，已在表格中标注
📌 v2与Round3的评分体系不同，跨体系比较仅供趋势参考

⚠️ v2文件截断问题说明

🔴 问题描述：v2 答案文件在传输/保存过程中存在截断现象，导致 Pro 和 Omni 的 A07 题目答案不完整，A维度评分因此失真。

🟡 影响范围：仅影响 Pro 和 Omni 的 A（指令遵循）维度，Flash 完整无截断。

📌 建议：在解读 A 维度结果时需考虑此因素，不能完全反映模型的指令遵循真实能力。

🔄 Omni minimax 超时处理：minimax 法官对 Omni v2 超时无返回，综合分使用 (kimi 89.4 + qwen 95.73)/2 = 92.6 估算，表格中已标注"minimax估算值"，实际分数可能存在±3分的偏差。

⚖️ 法官评分一致性分析

🔴 三法官评分差异问题

三位法官（kimi / minimax / qwen）对同一模型的评分存在显著差异。例如 Omni v2：kimi 给 89.4，qwen 给 95.73，用 (kimi+qwen)/2=92.6 估算——最大估算差距超过 20 分。这种差异直接影响排名可信度。

Omni最大差 >20分

🔴 v2 答案文件截断问题

v2 答案文件在传输/保存过程中存在截断现象，导致 A07 等题目答案不完整。Pro 和 Omni 的 A07 题目均因此缺失，影响了指令遵循维度的真实评分。

影响题目 A07等

🟡 A01 协议冲突题争议

A01 题目要求同时遵循两个相互冲突的指令。三位法官对「应该如何解决冲突」理解不同：kimi 认为应拒绝执行，minimax 可能给 0 分，qwen 可能给满分。裁判标准不一致。

Pro得分范围 90~100

🟡 minimax 超时问题

Omni v2 评测中 minimax 法官超时无返回，已用 (kimi+qwen)/2 估算值 92.6 填补。需注意：两法官估算值可能与真实三法官均值存在±3分偏差，跨模型直接比较时需考虑此因素。

Omni有效法官 2/3