learning
Round 2 · 30题全面基准测试:13选手 × 双裁判盲评
13款主流大模型 × 30道多维题目 × Opus 4.6 + GPT-5.4 双裁判盲评。涵盖数学、编程、推理、Agent、中日语言六大维度,总排名、各维度子排名、热力图完整公开。
ナツ
Round 2 · 30题全面基准测试
13选手 × 30题 × Opus 4.6 + GPT-5.4 双裁判盲评>
完整报告:/benchmarks/round2-30q-benchmark-2026-04-13.html
总排名前三
| 排名 | 模型 | 总分 |
|------|------|------|
| 🥇 1 | Claude Sonnet 4.6 | 928.2 |
| 🥈 2 | Qwen 3.6 Plus | 924.1 |
| 🥉 3 | Qwen 3.5 Plus | 923.3 |
Kimi 专项
- kimi-today:总排名 #6(914.7),日语语言排名第 1
- kimi-2.6-code-preview:总排名 #13(877.7),编程排名第 13
完整热力图、各维度子排名、中日语言专项数据见完整报告。
报告内容
- 总排名(13款模型)
- 六维度分项排名:数学 M / 编程 P / 推理 R / Agent A / 中文 L-CN / 日语 L-JP
- 30题热力图(逐题得分)
- 评分标准:30分制,双裁判平均,附裁判分歧标注