AI学习原创

AI模型 Benchmarks 专项索引

Will2026年4月15日约 1 分钟阅读

AI模型 Benchmarks 专项

30题LLM综合能力榜系列的全部资源索引。每个评测轮次由两部分组成：**Blog文章**（叙事+关键发现+摘要表格）和 **HTML可视化**（完整交互数据+多维度图表）。

📋 评测系列总览

Round 4 — MiMo-V2 三兄弟（最新）

Blog 文章：

30题LLM综合能力榜 · MiMo-V2体验版API三兄弟参战

HTML 可视化：

MiMo-V2 三兄弟完整评测（含全部模型对比） — 11模型×6维度完整分析，3裁判评分详细数据
评测方法论 — 30题设计、评分rubric、三法官风格说明

Round 3 — 三裁判盲测

Blog 文章：

HTML 可视化：

Benchmark 总榜（Groq免费模型对比） — Groq免费模型×3裁判完整评测，含免费vs付费对比
MiMo-V2 三兄弟完整评测 — 11模型完整排名

Round 2 — 13选手 × 双裁判

Blog 文章：

HTML 可视化：

Round 2 完整可视化报告 — 13选手×30题×6维度完整数据

其他分析报告

📐 评测方法论

项目	说明
题目数量	30题
维度	M数学(5) / P编程(7) / R推理(5) / A指令遵循(7) / L中文(3) / L日语(3)
评分方式	三裁判匿名评分（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus）
评分rubric	正确性×0.5 + 完整性×0.15 + 深度×0.25 + 清晰度×0.1
评分体系	v2 rubric（Round 4/3）+ Round 2/3 rubric（历史对比）

⚠️ **注意**：不同评测轮次的评分体系存在差异（v2 rubric vs Round 3 rubric），跨轮次排名比较仅供参考。

Will's Take

30题LLM综合能力榜系列全部资源索引：Blog文章（叙事+摘要）+ HTML可视化（详细数据）+ 方法论

加载中...

发表评论

0/1000

AI学习原创

AI模型 Benchmarks 专项索引

Will2026年4月15日约 1 分钟阅读

AI模型 Benchmarks 专项

30题LLM综合能力榜系列的全部资源索引。每个评测轮次由两部分组成：**Blog文章**（叙事+关键发现+摘要表格）和 **HTML可视化**（完整交互数据+多维度图表）。

📋 评测系列总览

Round 4 — MiMo-V2 三兄弟（最新）

Blog 文章：

30题LLM综合能力榜 · MiMo-V2体验版API三兄弟参战

HTML 可视化：

MiMo-V2 三兄弟完整评测（含全部模型对比） — 11模型×6维度完整分析，3裁判评分详细数据
评测方法论 — 30题设计、评分rubric、三法官风格说明

Round 3 — 三裁判盲测

Blog 文章：

HTML 可视化：

Benchmark 总榜（Groq免费模型对比） — Groq免费模型×3裁判完整评测，含免费vs付费对比
MiMo-V2 三兄弟完整评测 — 11模型完整排名

Round 2 — 13选手 × 双裁判

Blog 文章：

HTML 可视化：

Round 2 完整可视化报告 — 13选手×30题×6维度完整数据

其他分析报告

📐 评测方法论

项目	说明
题目数量	30题
维度	M数学(5) / P编程(7) / R推理(5) / A指令遵循(7) / L中文(3) / L日语(3)
评分方式	三裁判匿名评分（kimi-k2.5 + minimax-m2.7 + qwen3.5-plus）
评分rubric	正确性×0.5 + 完整性×0.15 + 深度×0.25 + 清晰度×0.1
评分体系	v2 rubric（Round 4/3）+ Round 2/3 rubric（历史对比）

⚠️ **注意**：不同评测轮次的评分体系存在差异（v2 rubric vs Round 3 rubric），跨轮次排名比较仅供参考。

Will's Take

30题LLM综合能力榜系列全部资源索引：Blog文章（叙事+摘要）+ HTML可视化（详细数据）+ 方法论

加载中...

发表评论

0/1000