AI模型 Benchmarks 专项

30题LLM综合能力榜系列的全部资源索引。每个评测轮次由两部分组成：Blog文章（叙事+关键发现+摘要表格）和 HTML可视化（完整交互数据+多维度图表）。

---

📋 评测系列总览

Round 4 — MiMo-V2 三兄弟（最新）

Blog 文章： - 30题LLM综合能力榜 · MiMo-V2体验版API三兄弟参战

HTML 可视化：

- MiMo-V2 三兄弟完整评测（含全部模型对比） — 11模型×6维度完整分析，3裁判评分详细数据

- 评测方法论 — 30题设计、评分rubric、三法官风格说明

---

Round 3 — 三裁判盲测

Blog 文章： - 30题LLM综合能力榜（Round 3 · 8选手 × 三裁判盲评） - 大模型语言实测排名

HTML 可视化：

- Benchmark 总榜（Groq免费模型对比） — Groq免费模型×3裁判完整评测，含免费vs付费对比

- MiMo-V2 三兄弟完整评测 — 11模型完整排名

---

Round 2 — 13选手 × 双裁判

Blog 文章： - 30题LLM综合能力榜（Round 2 · 13选手 × 双裁判） - 30题LLM综合能力榜概览

HTML 可视化： - Round 2 完整可视化报告 — 13选手×30题×6维度完整数据

---

其他分析报告

- Hermes vs OpenClaw 三方深度对比分析

- OpenClaw + Claude Code 协作实践笔记

---

📐 评测方法论

| 项目 | 说明 |

|------|------|

| 题目数量 | 30题 |

| 维度 | M数学(5) / P编程(7) / R推理(5) / A指令遵循(7) / L中文(3) / L日语(3) |

| 评分方式 | 三裁判匿名评分（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus） |

| 评分rubric | 正确性×0.5 + 完整性×0.15 + 深度×0.25 + 清晰度×0.1 |

| 评分体系 | v2 rubric（Round 4/3）+ Round 2/3 rubric（历史对比） |

⚠️ 注意：不同评测轮次的评分体系存在差异（v2 rubric vs Round 3 rubric），跨轮次排名比较仅供参考。

AI模型 Benchmarks 专项

30题LLM综合能力榜系列的全部资源索引。每个评测轮次由两部分组成：Blog文章（叙事+关键发现+摘要表格）和 HTML可视化（完整交互数据+多维度图表）。

---

📋 评测系列总览

Round 4 — MiMo-V2 三兄弟（最新）

Blog 文章： - 30题LLM综合能力榜 · MiMo-V2体验版API三兄弟参战

HTML 可视化：

- MiMo-V2 三兄弟完整评测（含全部模型对比） — 11模型×6维度完整分析，3裁判评分详细数据

- 评测方法论 — 30题设计、评分rubric、三法官风格说明

---

Round 3 — 三裁判盲测

Blog 文章： - 30题LLM综合能力榜（Round 3 · 8选手 × 三裁判盲评） - 大模型语言实测排名

HTML 可视化：

- Benchmark 总榜（Groq免费模型对比） — Groq免费模型×3裁判完整评测，含免费vs付费对比

- MiMo-V2 三兄弟完整评测 — 11模型完整排名

---

Round 2 — 13选手 × 双裁判

Blog 文章： - 30题LLM综合能力榜（Round 2 · 13选手 × 双裁判） - 30题LLM综合能力榜概览

HTML 可视化： - Round 2 完整可视化报告 — 13选手×30题×6维度完整数据

---

其他分析报告

- Hermes vs OpenClaw 三方深度对比分析

- OpenClaw + Claude Code 协作实践笔记

---

📐 评测方法论

| 项目 | 说明 |

|------|------|

| 题目数量 | 30题 |

| 维度 | M数学(5) / P编程(7) / R推理(5) / A指令遵循(7) / L中文(3) / L日语(3) |

| 评分方式 | 三裁判匿名评分（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus） |

| 评分rubric | 正确性×0.5 + 完整性×0.15 + 深度×0.25 + 清晰度×0.1 |

| 评分体系 | v2 rubric（Round 4/3）+ Round 2/3 rubric（历史对比） |

⚠️ 注意：不同评测轮次的评分体系存在差异（v2 rubric vs Round 3 rubric），跨轮次排名比较仅供参考。

AI模型 Benchmarks 专项索引

AI模型 Benchmarks 专项

📋 评测系列总览

Round 4 — MiMo-V2 三兄弟（最新）

Round 3 — 三裁判盲测

Round 2 — 13选手 × 双裁判

其他分析报告

📐 评测方法论

🔗 相关文章

AI模型 Benchmarks 专项索引

AI模型 Benchmarks 专项

📋 评测系列总览

Round 4 — MiMo-V2 三兄弟（最新）

Round 3 — 三裁判盲测

Round 2 — 13选手 × 双裁判

其他分析报告

📐 评测方法论

🔗 相关文章