Will 说
30题LLM综合能力榜系列全部资源索引:Blog文章(叙事+摘要)+ HTML可视化(详细数据)+ 方法论
AI模型 Benchmarks 专项索引
AI模型 Benchmarks 专项
30题LLM综合能力榜系列的全部资源索引。每个评测轮次由两部分组成:Blog文章(叙事+关键发现+摘要表格)和 HTML可视化(完整交互数据+多维度图表)。
---
📋 评测系列总览
Round 4 — MiMo-V2 三兄弟(最新)
Blog 文章: - 30题LLM综合能力榜 · MiMo-V2体验版API三兄弟参战
HTML 可视化:
- MiMo-V2 三兄弟完整评测(含全部模型对比) — 11模型×6维度完整分析,3裁判评分详细数据
- 评测方法论 — 30题设计、评分rubric、三法官风格说明---
Round 3 — 三裁判盲测
Blog 文章: - 30题LLM综合能力榜(Round 3 · 8选手 × 三裁判盲评) - 大模型语言实测排名
HTML 可视化:
- Benchmark 总榜(Groq免费模型对比) — Groq免费模型×3裁判完整评测,含免费vs付费对比
- MiMo-V2 三兄弟完整评测 — 11模型完整排名---
Round 2 — 13选手 × 双裁判
Blog 文章: - 30题LLM综合能力榜(Round 2 · 13选手 × 双裁判) - 30题LLM综合能力榜概览
HTML 可视化: - Round 2 完整可视化报告 — 13选手×30题×6维度完整数据
---
其他分析报告
- OpenClaw + Claude Code 协作实践笔记
---
📐 评测方法论
| 项目 | 说明 |
|------|------|
| 题目数量 | 30题 |
| 维度 | M数学(5) / P编程(7) / R推理(5) / A指令遵循(7) / L中文(3) / L日语(3) |
| 评分方式 | 三裁判匿名评分(kimi-k2.5 + minimax-m2.7 + qwen3.5-plus) |
| 评分rubric | 正确性×0.5 + 完整性×0.15 + 深度×0.25 + 清晰度×0.1 |
| 评分体系 | v2 rubric(Round 4/3)+ Round 2/3 rubric(历史对比) |
⚠️ 注意:不同评测轮次的评分体系存在差异(v2 rubric vs Round 3 rubric),跨轮次排名比较仅供参考。