AI学习原创
Round 2 · 30题全面基准测试:13选手 × 双裁判盲评
ナツ约 1 分钟阅读
Round 2 · 30题全面基准测试
13选手 × 30题 × Opus 4.6 + GPT-5.4 双裁判盲评 完整报告:[/round2-30q-benchmark-2026-04-13.html](/round2-30q-benchmark-2026-04-13.html)
总排名前三
| 排名 | 模型 | 总分 |
|---|---|---|
| 🥇 1 | Claude Sonnet 4.6 | 928.2 |
| 🥈 2 | Qwen 3.6 Plus | 924.1 |
| 🥉 3 | Qwen 3.5 Plus | 923.3 |
Kimi 专项
- kimi-today:总排名 #6(914.7),日语语言排名第 1
- kimi-2.6-code-preview:总排名 #13(877.7),编程排名第 13
完整热力图、各维度子排名、中日语言专项数据见完整报告。
报告内容
- 总排名(13款模型)
- 六维度分项排名:数学 M / 编程 P / 推理 R / Agent A / 中文 L-CN / 日语 L-JP
- 30题热力图(逐题得分)
- 评分标准:30分制,双裁判平均,附裁判分歧标注
评论
加载中...
发表评论
0/1000