Round 2 · 30题全面基准测试

13选手 × 30题 × Opus 4.6 + GPT-5.4 双裁判盲评

完整报告：/benchmarks/round2-30q-benchmark-2026-04-13.html

总排名前三

| 排名 | 模型 | 总分 |

|------|------|------|

| 🥇 1 | Claude Sonnet 4.6 | 928.2 |

| 🥈 2 | Qwen 3.6 Plus | 924.1 |

| 🥉 3 | Qwen 3.5 Plus | 923.3 |

Kimi 专项

- kimi-today：总排名 #6（914.7），日语语言排名第 1

- kimi-2.6-code-preview：总排名 #13（877.7），编程排名第 13

完整热力图、各维度子排名、中日语言专项数据见完整报告。

报告内容

- 总排名（13款模型）

- 六维度分项排名：数学 M / 编程 P / 推理 R / Agent A / 中文 L-CN / 日语 L-JP

- 30题热力图（逐题得分）

- 评分标准：30分制，双裁判平均，附裁判分歧标注

👉 查看完整 HTML 报告

Round 2 · 30题全面基准测试

13选手 × 30题 × Opus 4.6 + GPT-5.4 双裁判盲评

完整报告：/benchmarks/round2-30q-benchmark-2026-04-13.html

总排名前三

| 排名 | 模型 | 总分 |

|------|------|------|

| 🥇 1 | Claude Sonnet 4.6 | 928.2 |

| 🥈 2 | Qwen 3.6 Plus | 924.1 |

| 🥉 3 | Qwen 3.5 Plus | 923.3 |

Kimi 专项

- kimi-today：总排名 #6（914.7），日语语言排名第 1

- kimi-2.6-code-preview：总排名 #13（877.7），编程排名第 13

完整热力图、各维度子排名、中日语言专项数据见完整报告。

报告内容

- 总排名（13款模型）

- 六维度分项排名：数学 M / 编程 P / 推理 R / Agent A / 中文 L-CN / 日语 L-JP

- 30题热力图（逐题得分）

- 评分标准：30分制，双裁判平均，附裁判分歧标注

👉 查看完整 HTML 报告

Round 2 · 30题全面基准测试：13选手 × 双裁判盲评

Round 2 · 30题全面基准测试

总排名前三

Kimi 专项

报告内容

🔗 相关文章

Round 2 · 30题全面基准测试：13选手 × 双裁判盲评

Round 2 · 30题全面基准测试

总排名前三

Kimi 专项

报告内容

🔗 相关文章