ROUND 2 · 30 题完整榜 · 双裁判 · 13 选手

30 题 LLM 综合能力榜

完整 v2 题库 × 13 选手(含 kimi-2.6-code-preview 和 kimi-today 两个时间版本)× 双裁判 Opus 4.6 + GPT-5.4 匿名盲评

选手 13
题目 30
评分总数 780
裁判一致性 avg Δ 59.6
TL;DR
这是完整的 30 题 v2 题库 × 13 选手 × 双裁判(Opus 4.6 + GPT-5.4)的综合能力排行榜。与 extended-v2 专注 hermes 场景的 12 题版本不同, 这份报告涵盖了数学、编程、推理、指令遵循、中文语言、日语语言全部 6 个维度,每个维度 2-7 道题,能更准确地反映每个选手的真实能力画像。

关键观察:kimi-2.6-code-preview 和 kimi-today 作为『同一 API 端点的不同时间版本』被显式分开排名,可以直接看出 kimi 在 3 天内的能力跃升。

13 选手 × 30 题加权总分

用 v2 题库原始 weight_multiplier 加权(不是 hermes 的 4x CJK 权重)。kimi 两个版本用颜色标记。

# 模型 加权总分 MPRAL-CNL-JP
🥇claude-sonnet-4.6 928.2959912947896909900
🥈qwen3.6-plus 924.1956888943900931898
🥉qwen3.5-plus 923.3961890951902905799
#4glm-5-turbo 921.5953904924873905882
#5claude-opus-4.6 919.4956906943866892904
#6kimi-today today914.7942916948827933906
#7glm-5.1 913.4955879949859888857
#8gpt-5.4 909.0939897943867849886
#9gpt-5.4-mini 900.0945876910845832886
#10deepseek-reasoner 898.7943868934819886833
#11minimax-m2.7 894.8963875927889757706
#12deepseek-chat 889.9943871898830885810
#13kimi-2.6-code-preview 2.6 preview877.7941830934809879797

🧪 Kimi 时间版本对比

Kimi 两个版本的直接对比(都在 13 选手同一榜单中)

在总排名里,kimi-2.6-code-preview 排第 13(877.7 分), 而 kimi-today 排第 6(914.7 分), 两者差距 +37.0 分

在中日语言子排名里,kimi-2.6-code-preview 排第 11(851.9 分)kimi-today 排第 1(924.1 分), 差距 +72.2 分

这两个数字的重要性在于:Will 本人参加了 kimi 2.6-coding-preview 的内测,我们现在确认 Round 2(2026-04-10)测试期间 kimi-k2.5 endpoint 返回的就是 2.6-preview 的输出。 今天(2026-04-13)再跑同样的 30 题,kimi-k2.5 endpoint 返回的就是预览结束后的稳定版本。两个版本在同一榜单上的位次差,是对 2.6-preview 和后续稳定版之间行为差异的最直观度量。

中日语言子排名(6 道 L-CN + L-JP 题)

只看 L-CN (L01-L04) + L-JP (L05-L06) 这 6 道语言题的均分。这是从 30 题中抽出的语言专项排名,不包含 hermes 的 T01-T04 现代翻译题。

# 模型 语言均分 L-CN L-JP n
🥇kimi-today today924.1933906n=6
🥈qwen3.6-plus 920.1931898n=6
🥉claude-sonnet-4.6 905.8909900n=6
#4glm-5-turbo 897.2905882n=6
#5claude-opus-4.6 896.0892904n=6
#6glm-5.1 877.7888857n=6
#7qwen3.5-plus 869.4905799n=6
#8deepseek-reasoner 868.2886833n=6
#9gpt-5.4 861.5849886n=6
#10deepseek-chat 860.1885810n=6
#11kimi-2.6-code-preview 2.6 preview851.9879797n=6
#12gpt-5.4-mini 850.2832886n=6
#13minimax-m2.7 740.2757706n=6

6 个能力维度分别谁是王?

每个维度独立排名。注意 kimi-2.6-preview 和 kimi-today 在每个维度里的位次变化。

M
数学
#选手均分
1minimax-m2.7962.5
2qwen3.5-plus960.6
3claude-sonnet-4.6958.5
4claude-opus-4.6955.6
5qwen3.6-plus955.6
6glm-5.1954.9
7glm-5-turbo953.0
8gpt-5.4-mini945.0
9deepseek-chat943.3
10deepseek-reasoner943.2
11kimi-today942.5
12kimi-2.6-code-preview940.6
13gpt-5.4939.2
P
编程
#选手均分
1kimi-today915.5
2claude-sonnet-4.6911.9
3claude-opus-4.6906.2
4glm-5-turbo903.5
5gpt-5.4897.1
6qwen3.5-plus889.5
7qwen3.6-plus888.5
8glm-5.1879.3
9gpt-5.4-mini875.8
10minimax-m2.7875.4
11deepseek-chat870.5
12deepseek-reasoner868.4
13kimi-2.6-code-preview830.0
R
推理
#选手均分
1qwen3.5-plus951.0
2glm-5.1948.9
3kimi-today947.5
4claude-sonnet-4.6947.0
5claude-opus-4.6943.1
6qwen3.6-plus943.0
7gpt-5.4942.8
8deepseek-reasoner933.7
9kimi-2.6-code-preview933.6
10minimax-m2.7926.6
11glm-5-turbo924.1
12gpt-5.4-mini909.9
13deepseek-chat898.5
A
指令遵循 / Agent
#选手均分
1qwen3.5-plus902.1
2qwen3.6-plus900.5
3claude-sonnet-4.6896.0
4minimax-m2.7888.9
5glm-5-turbo873.3
6gpt-5.4866.8
7claude-opus-4.6866.4
8glm-5.1859.0
9gpt-5.4-mini845.2
10deepseek-chat829.6
11kimi-today826.6
12deepseek-reasoner818.5
13kimi-2.6-code-preview808.6
L-CN
中文语言
#选手均分
1kimi-today932.8
2qwen3.6-plus931.1
3claude-sonnet-4.6908.6
4qwen3.5-plus904.8
5glm-5-turbo904.6
6claude-opus-4.6892.2
7glm-5.1887.9
8deepseek-reasoner885.7
9deepseek-chat884.9
10kimi-2.6-code-preview879.3
11gpt-5.4849.0
12gpt-5.4-mini832.2
13minimax-m2.7757.1
L-JP
日语语言
#选手均分
1kimi-today906.5
2claude-opus-4.6903.5
3claude-sonnet-4.6900.4
4qwen3.6-plus898.0
5gpt-5.4886.5
6gpt-5.4-mini886.2
7glm-5-turbo882.5
8glm-5.1857.2
9deepseek-reasoner833.2
10deepseek-chat810.4
11qwen3.5-plus798.6
12kimi-2.6-code-preview797.0
13minimax-m2.7706.4

逐题双裁判平均分热力图

颜色越绿越好。红色/绿色边框行分别是 kimi-2.6-preview 和 kimi-today。

模型 \ 题目M01
M
M02
M
M03
M
M04
M
M05
M
P01
P
P02
P
P03
P
P04
P
P05
P
P06
P
P07
P
R01
R
R02
R
R03
R
R04
R
R05
R
A01
A
A02
A
A03
A
A04
A
A05
A
A06
A
A07
A
L01
L-CN
L02
L-CN
L03
L-CN
L04
L-CN
L05
L-JP
L06
L-JP
claude-sonnet-4.6918974971954976962839966813963885956933950978918956793936994782994803971968866934867846955
qwen3.6-plus908973961960975955852946822822902922889954970952951712955983922966807958891946934954884912
qwen3.5-plus913954974976986964856948762860883954953942970944946762961986887985783952918873877950678919
glm-5-turbo912966961965961966916966756849922951912944918892954796944983899989642860914929915860867898
claude-opus-4.6900971972956978966882958784914873966919952970946927664938991942876818835894842940893848960
kimi-today872971960931979957901962866890892941932954948942961638738988898988813724964911935921876937
glm-5.1893971967963980942843942738850896944921950967954952717922993936898790758894786920951815900
gpt-5.4830968962961974950804944875868879961935957950948924796934979937887758776876758895867894880
gpt-5.4-mini848971962960985949849935751833870944767956943949934801890994924976635696835744899850882891
deepseek-reasoner859967958961970937883946702859896856870951961920966771699982896987598796844892908899748918
minimax-m2.7926965965986972955861951692884907878865959905937966791962981931982710865872672680806742671
deepseek-chat853968970956970915825928736932903855945945937936729714741996886984760727877881905877711910
kimi-2.6-code-preview868942959956978702889787778859852944899948939936947685746991784981727746892830916878690904