AI心得原创
30 题 LLM 综合能力榜(Round 2 · 13选手 × 双裁判)
Will约 2 分钟阅读
30 题 LLM 综合能力榜
**Round 2 · 13 选手 × 双裁判** | v2 题库 × 双裁判(Opus 4.6 + GPT-5.4)匿名盲评
TL;DR
这是完整的 30 题 v2 题库 × 13 选手 × 双裁判(Opus 4.6 + GPT-5.4)的综合能力排行榜。与 extended-v2 专注 hermes 场景的 12 题版本不同,这份报告涵盖了数学、编程、推理、指令遵循、中文语言、日语语言全部 6 个维度。
关键观察:kimi-2.6-code-preview 和 kimi-today 作为『同一 API 端点的不同时间版本』被显式分开排名,可以直接看出 kimi 在 3 天内的能力跃升。
总排名:13 选手 × 30 题加权总分
用 v2 题库原始 weight_multiplier 加权(不是 hermes 的 4x CJK 权重)。
| # | 模型 | 加权总分 | M | P | R | A | L-CN | L-JP |
|---|---|---|---|---|---|---|---|---|
| 🥇 | claude-sonnet-4.6 | 928.2 | 959 | 912 | 947 | 896 | 909 | 900 |
| 🥈 | qwen3.6-plus | 924.1 | 956 | 888 | 943 | 900 | 931 | 898 |
| 🥉 | qwen3.5-plus | 923.3 | 961 | 890 | 951 | 902 | 905 | 799 |
| #4 | glm-5-turbo | 921.5 | 953 | 904 | 924 | 873 | 905 | 882 |
| #5 | claude-opus-4.6 | 919.4 | 956 | 906 | 943 | 866 | 892 | 904 |
| #6 | kimi-today 🟢 | 914.7 | 942 | 916 | 948 | 827 | 933 | 906 |
| #7 | glm-5.1 | 913.4 | 955 | 879 | 949 | 859 | 888 | 857 |
| #8 | gpt-5.4 | 909.0 | 939 | 897 | 943 | 867 | 849 | 886 |
| #9 | gpt-5.4-mini | 900.0 | 945 | 876 | 910 | 845 | 832 | 886 |
| #10 | deepseek-reasoner | 898.7 | 943 | 868 | 934 | 819 | 886 | 833 |
| #11 | minimax-m2.7 | 894.8 | 963 | 875 | 927 | 889 | 757 | 706 |
| #12 | deepseek-chat | 889.9 | 943 | 871 | 898 | 830 | 885 | 810 |
| #13 | kimi-2.6-code-preview 🔴 | 877.7 | 941 | 830 | 934 | 809 | 879 | 797 |
🧪 Kimi 时间版本直接对比
| 指标 | kimi-2.6-code-preview (旧) | kimi-today (新) | 差距 |
|---|---|---|---|
| 总排名位次 | 第 13 名 | 第 6 名 | ↑7 位 |
| 加权总分 | 877.7 | 914.7 | +37.0 |
| 中日语言均分 | 851.9 (第11) | 924.1 (第1) | +72.2 |
| 编程 P | 830 (第13) | 916 (第1) | +86 |
这两个数字的重要性在于:Round 2(2026-04-10)测试期间 kimi-k2.5 endpoint 返回的是 2.6-preview 输出;今天(2026-04-13)再跑同样的 30 题,返回的是预览结束后的稳定版本。两个版本在同一榜单上的位次差,是对 2.6-preview 和后续稳定版之间行为差异的最直观度量。
语言专项:中韩语言子排名(6 道 L-CN + L-JP 题)
只看 L-CN (L01-L04) + L-JP (L05-L06) 这 6 道语言题的均分。
| # | 模型 | 语言均分 | L-CN | L-JP |
|---|---|---|---|---|
| 🥇 | kimi-today 🟢 | 924.1 | 933 | 906 |
| 🥈 | qwen3.6-plus | 920.1 | 931 | 898 |
| 🥉 | claude-sonnet-4.6 | 905.8 | 909 | 900 |
| #4 | glm-5-turbo | 897.2 | 905 | 882 |
| #5 | claude-opus-4.6 | 896.0 | 892 | 904 |
| #6 | glm-5.1 | 877.7 | 888 | 857 |
| #7 | qwen3.5-plus | 869.4 | 905 | 799 |
| #8 | deepseek-reasoner | 868.2 | 886 | 833 |
| #9 | gpt-5.4 | 861.5 | 849 | 886 |
| #10 | deepseek-chat | 860.1 | 885 | 810 |
| #11 | kimi-2.6-code-preview 🔴 | 851.9 | 879 | 797 |
| #12 | gpt-5.4-mini | 850.2 | 832 | 886 |
| #13 | minimax-m2.7 | 740.2 | 757 | 706 |
kimi-today 语言专项排名第一!领先 qwen3.6-plus 4分,领先旧版 kimi 72.2分。
各维度子排名
M · 数学
| # | 模型 | 均分 |
|---|---|---|
| 1 | minimax-m2.7 | 962.5 |
| 2 | qwen3.5-plus | 960.6 |
| 3 | claude-sonnet-4.6 | 958.5 |
| 4 | claude-opus-4.6 | 955.6 |
| 5 | qwen3.6-plus | 955.6 |
| ... | ... | ... |
| 12 | kimi-today 🟢 | 942.5 |
| 13 | gpt-5.4 | 939.2 |
P · 编程
| # | 模型 | 均分 |
|---|---|---|
| 1 | kimi-today 🟢 | 915.5 |
| 2 | claude-sonnet-4.6 | 911.9 |
| 3 | claude-opus-4.6 | 906.2 |
| ... | ... | ... |
| 13 | kimi-2.6-code-preview 🔴 | 830.0 |
R · 推理
| # | 模型 | 均分 |
|---|---|---|
| 1 | qwen3.5-plus | 951.0 |
| 2 | glm-5.1 | 948.9 |
| 3 | kimi-today 🟢 | 947.5 |
| 4 | claude-sonnet-4.6 | 947.0 |
A · 指令遵循 / Agent
| # | 模型 | 均分 |
|---|---|---|
| 1 | qwen3.5-plus | 902.1 |
| 2 | qwen3.6-plus | 900.5 |
| 3 | claude-sonnet-4.6 | 896.0 |
| ... | ... | ... |
| 11 | kimi-today 🟢 | 826.6 |
| 13 | kimi-2.6-code-preview 🔴 | 808.6 |
L-CN · 中文语言
| # | 模型 | 均分 |
|---|---|---|
| 1 | kimi-today 🟢 | 932.8 |
| 2 | qwen3.6-plus | 931.1 |
| 3 | claude-sonnet-4.6 | 908.6 |
| ... | ... | ... |
| 13 | minimax-m2.7 | 757.1 |
L-JP · 日语语言
| # | 模型 | 均分 |
|---|---|---|
| 1 | kimi-today 🟢 | 906.5 |
| 2 | claude-opus-4.6 | 903.5 |
| 3 | claude-sonnet-4.6 | 900.4 |
| ... | ... | ... |
| 12 | kimi-2.6-code-preview 🔴 | 797.0 |
| 13 | minimax-m2.7 | 706.4 |
关键发现
- claude-sonnet-4.6 总分夺冠:928.2分,综合实力最强
- kimi-today 编程、日语均第一:编程均分 915.5,日语 906.5,两个维度双冠
- kimi-today 中文语言第一:L-CN 均分 932.8,全面领先
- qwen3.5-plus 数学+推理+Agent 三冠:数学 960.6,推理 951.0,Agent 902.1
- kimi 3天跃升 37 分:从 877.7→914.7,进步 7 个位次
- kimi 语言进步 72.2 分:从语言第11→第1,中日双语能力大幅提升
- minimax-m2.7 数学第一但语言垫底:M 962.5 最高,L-JP 706.4 最低
Generated 2026-04-13 · round2-double-judge · 13 contestants × 30 questions × 2 judges = 780 scores
📊 详细图表
- Round 2 完整可视化报告 — 13选手×30题×6维度完整数据
- 评测方法论 — 30题设计、评分rubric、裁判说明
Will's Take
13大模型30题实测,claude-sonnet-4.6夺冠;kimi两个时间版本直接对比,3天内跃升37分
评论
加载中...
发表评论
0/1000