MiMo-V2 三兄弟(Pro / Omni / Flash)为限时体验版API(到2026-04-22),所有模型均为付费API/云服务调用,区别仅在于付费方式不同。
使用 v2 题目(30题×6维度×3法官)评测,加入 Round 3 完整排名对比,全面评估模型实力差距。
| # | 模型 | 来源 | kimi | minimax | qwen | 三法官平均 |
|---|---|---|---|---|---|---|
| 🥇 1 | MiMo-V2-Pro | v2/体验版API | 99.27 | 97.07 | 96.10 | 97.48 |
| 🥈 2 | 小米mimo | Round3/小米Cloud | 95.83 | 99.17 | 97.67 | 97.56 |
| 🥉 3 | Claude Opus 4.6 | Round3/小米Cloud | 94.83 | 100.0 | 96.40 | 97.08 |
| 4 | Qwen 3.6-plus | Round3/小米Cloud | 93.17 | 96.43 | 96.43 | 95.34 |
| 5 | GPT-5.4-mini | Round3/小米Cloud | 96.83 | 92.23 | 96.48 | 95.18 |
| 6 | Qwen 3.5-plus | Round3/小米Cloud | 95.67 | 95.67 | 92.50 | 94.61 |
| 7 | MiniMax M2.7 | Round3/小米Cloud | 96.00 | 95.50 | 88.67 | 93.39 |
| 8 | GPT-5.4 | Round3/小米Cloud | 94.17 | 91.00 | 94.57 | 93.25 |
| 9 | Kimi K2.5 | Round3/小米Cloud | 95.17 | 92.67 | 91.67 | 93.17 |
| 10 | MiMo-V2-Omni | v2/体验版API | 89.40 | 92.6 minimax估算 | 95.73 | 92.6 |
| 11 | MiMo-V2-Flash | v2/体验版API | 89.40 | 91.77 | 87.70 | 89.62 |
综合分 97.48,超越小米mimo Round3 的 97.56(v2 rubric下最强)
综合分 92.57,免费三兄弟第二强,介于付费模型中游
数学 / 编程 / 推理 / 中文 / 日语 全面超越所有付费模型
A01协议冲突题法官评分差异巨大,A07答案截断导致评分失真
kimi:评分温和稳定,不打极端分。
minimax:喜欢打极端分(满分或零分),差异大。
qwen:三者中最严格,分差最小。
v2 与 Round3 使用了不同的评分rubric和题目,混合排名仅供参考,不代表真实能力排序。
| 模型 | 身份 | 平均分 |
|---|---|---|
| MiMo-V2-Flash | v2/体验版API | 99.2 |
| MiMo-V2-Pro | v2/体验版API | 98.5 |
| MiMo-V2-Omni | v2/体验版API | 98.4 |
| Claude Opus | R3/小米Cloud | 97.2 |
| 小米mimo | R3/小米Cloud | 96.8 |
| Qwen 3.6-plus | R3/小米Cloud | 96.5 |
| GPT-5.4-mini | R3/小米Cloud | 96.1 |
| Kimi K2.5 | R3/小米Cloud | 94.3 |
| 模型 | 身份 | 平均分 |
|---|---|---|
| MiMo-V2-Pro | v2/体验版API | 98.4 |
| MiMo-V2-Flash | v2/体验版API | 98.3 |
| Claude Opus | R3/小米Cloud | 98.1 |
| Qwen 3.6-plus | R3/小米Cloud | 96.8 |
| MiMo-V2-Omni | v2/体验版API | 94.7 |
| 模型 | 身份 | 平均分 |
|---|---|---|
| MiMo-V2-Pro | v2/体验版API | 98.9 |
| MiMo-V2-Flash | v2/体验版API | 98.6 |
| MiMo-V2-Omni | v2/体验版API | 97.9 |
| 模型 | 身份 | 平均分 |
|---|---|---|
| MiMo-V2-Pro | v2/体验版API | 93.6 |
| MiMo-V2-Omni | v2/体验版API | 84.1 |
| MiMo-V2-Flash | v2/体验版API | 70.4 |
| 模型 | 身份 | 平均分 |
|---|---|---|
| MiMo-V2-Pro | v2/体验版API | 99.3 |
| MiMo-V2-Flash | v2/体验版API | 99.3 |
| MiMo-V2-Omni | v2/体验版API | 97.3 |
| 模型 | 身份 | 平均分 |
|---|---|---|
| MiMo-V2-Pro | v2/体验版API | 99.3 |
| MiMo-V2-Omni | v2/体验版API | 97.5 |
| MiMo-V2-Flash | v2/体验版API | 94.5 |
| 模型 | 优势场景 | 短板 |
|---|---|---|
| Pro | 全能王,6维度全面领先 | 价格最高 |
| Omni | 指令遵循波动大但潜力高 | 稳定性不足(超时风险) |
| Flash | 性价比极高,数学/中文接近Pro | 指令遵循(A)较弱 |
| 法官 | 打分风格 | 特点 |
|---|---|---|
| kimi | 温和稳定 | 不打极端分,波动小 |
| minimax | 极端分化 | 爱打满分或零分,差异大 |
| qwen | 严格细致 | 三者中最严,分差最小 |
🔴 问题描述:v2 答案文件在传输/保存过程中存在截断现象,导致 Pro 和 Omni 的 A07 题目答案不完整,A维度评分因此失真。
🟡 影响范围:仅影响 Pro 和 Omni 的 A(指令遵循)维度,Flash 完整无截断。
📌 建议:在解读 A 维度结果时需考虑此因素,不能完全反映模型的指令遵循真实能力。
🔄 Omni minimax 超时处理:minimax 法官对 Omni v2 超时无返回,综合分使用 (kimi 89.4 + qwen 95.73)/2 = 92.6 估算,表格中已标注"minimax估算值",实际分数可能存在±3分的偏差。
三位法官(kimi / minimax / qwen)对同一模型的评分存在显著差异。例如 Omni v2:kimi 给 89.4,qwen 给 95.73,用 (kimi+qwen)/2=92.6 估算——最大估算差距超过 20 分。这种差异直接影响排名可信度。
v2 答案文件在传输/保存过程中存在截断现象,导致 A07 等题目答案不完整。Pro 和 Omni 的 A07 题目均因此缺失,影响了指令遵循维度的真实评分。
A01 题目要求同时遵循两个相互冲突的指令。三位法官对「应该如何解决冲突」理解不同:kimi 认为应拒绝执行,minimax 可能给 0 分,qwen 可能给满分。裁判标准不一致。
Omni v2 评测中 minimax 法官超时无返回,已用 (kimi+qwen)/2 估算值 92.6 填补。需注意:两法官估算值可能与真实三法官均值存在±3分偏差,跨模型直接比较时需考虑此因素。