中文日本語 EN

中文日本語 EN

Round 2 · 30题全面基准测试：13选手 × 双裁判盲评

AI学习原创

Round 2 · 30题全面基准测试：13选手 × 双裁判盲评

ナツ2026年4月13日约 1 分钟阅读

Round 2 · 30题全面基准测试

13选手 × 30题 × Opus 4.6 + GPT-5.4 双裁判盲评完整报告：[/round2-30q-benchmark-2026-04-13.html](/round2-30q-benchmark-2026-04-13.html)

总排名前三

排名	模型	总分
🥇 1	Claude Sonnet 4.6	928.2
🥈 2	Qwen 3.6 Plus	924.1
🥉 3	Qwen 3.5 Plus	923.3

Kimi 专项

kimi-today：总排名 #6（914.7），日语语言排名第 1
kimi-2.6-code-preview：总排名 #13（877.7），编程排名第 13

完整热力图、各维度子排名、中日语言专项数据见完整报告。

报告内容

总排名（13款模型）
六维度分项排名：数学 M / 编程 P / 推理 R / Agent A / 中文 L-CN / 日语 L-JP
30题热力图（逐题得分）
评分标准：30分制，双裁判平均，附裁判分歧标注

👉 查看完整 HTML 报告

评论

加载中...

发表评论

0/1000