AI学习原创
AI模型 Benchmarks 专项索引
Will约 1 分钟阅读
AI模型 Benchmarks 专项
30题LLM综合能力榜系列的全部资源索引。每个评测轮次由两部分组成:**Blog文章**(叙事+关键发现+摘要表格)和 **HTML可视化**(完整交互数据+多维度图表)。
📋 评测系列总览
Round 4 — MiMo-V2 三兄弟(最新)
Blog 文章:
HTML 可视化:
- MiMo-V2 三兄弟完整评测(含全部模型对比) — 11模型×6维度完整分析,3裁判评分详细数据
- 评测方法论 — 30题设计、评分rubric、三法官风格说明
Round 3 — 三裁判盲测
Blog 文章:
HTML 可视化:
- Benchmark 总榜(Groq免费模型对比) — Groq免费模型×3裁判完整评测,含免费vs付费对比
- MiMo-V2 三兄弟完整评测 — 11模型完整排名
Round 2 — 13选手 × 双裁判
Blog 文章:
HTML 可视化:
- Round 2 完整可视化报告 — 13选手×30题×6维度完整数据
其他分析报告
📐 评测方法论
| 项目 | 说明 |
|---|---|
| 题目数量 | 30题 |
| 维度 | M数学(5) / P编程(7) / R推理(5) / A指令遵循(7) / L中文(3) / L日语(3) |
| 评分方式 | 三裁判匿名评分(kimi-k2.5 + minimax-m2.7 + qwen3.5-plus) |
| 评分rubric | 正确性×0.5 + 完整性×0.15 + 深度×0.25 + 清晰度×0.1 |
| 评分体系 | v2 rubric(Round 4/3)+ Round 2/3 rubric(历史对比) |
⚠️ **注意**:不同评测轮次的评分体系存在差异(v2 rubric vs Round 3 rubric),跨轮次排名比较仅供参考。
Will's Take
30题LLM综合能力榜系列全部资源索引:Blog文章(叙事+摘要)+ HTML可视化(详细数据)+ 方法论
评论
加载中...
发表评论
0/1000