AI心得原创

30 题 LLM 综合能力榜（Round 2 · 13选手 × 双裁判）

Will2026年4月14日约 2 分钟阅读

30 题 LLM 综合能力榜

**Round 2 · 13 选手 × 双裁判** | v2 题库 × 双裁判（Opus 4.6 + GPT-5.4）匿名盲评

TL;DR

这是完整的 30 题 v2 题库 × 13 选手 × 双裁判（Opus 4.6 + GPT-5.4）的综合能力排行榜。与 extended-v2 专注 hermes 场景的 12 题版本不同，这份报告涵盖了数学、编程、推理、指令遵循、中文语言、日语语言全部 6 个维度。

关键观察：kimi-2.6-code-preview 和 kimi-today 作为『同一 API 端点的不同时间版本』被显式分开排名，可以直接看出 kimi 在 3 天内的能力跃升。

总排名：13 选手 × 30 题加权总分

用 v2 题库原始 weight_multiplier 加权（不是 hermes 的 4x CJK 权重）。

#	模型	加权总分	M	P	R	A	L-CN	L-JP
🥇	claude-sonnet-4.6	928.2	959	912	947	896	909	900
🥈	qwen3.6-plus	924.1	956	888	943	900	931	898
🥉	qwen3.5-plus	923.3	961	890	951	902	905	799
#4	glm-5-turbo	921.5	953	904	924	873	905	882
#5	claude-opus-4.6	919.4	956	906	943	866	892	904
#6	kimi-today 🟢	914.7	942	916	948	827	933	906
#7	glm-5.1	913.4	955	879	949	859	888	857
#8	gpt-5.4	909.0	939	897	943	867	849	886
#9	gpt-5.4-mini	900.0	945	876	910	845	832	886
#10	deepseek-reasoner	898.7	943	868	934	819	886	833
#11	minimax-m2.7	894.8	963	875	927	889	757	706
#12	deepseek-chat	889.9	943	871	898	830	885	810
#13	kimi-2.6-code-preview 🔴	877.7	941	830	934	809	879	797

🧪 Kimi 时间版本直接对比

指标	kimi-2.6-code-preview (旧)	kimi-today (新)	差距
总排名位次	第 13 名	第 6 名	↑7 位
加权总分	877.7	914.7	+37.0
中日语言均分	851.9 (第11)	924.1 (第1)	+72.2
编程 P	830 (第13)	916 (第1)	+86

这两个数字的重要性在于：Round 2（2026-04-10）测试期间 kimi-k2.5 endpoint 返回的是 2.6-preview 输出；今天（2026-04-13）再跑同样的 30 题，返回的是预览结束后的稳定版本。两个版本在同一榜单上的位次差，是对 2.6-preview 和后续稳定版之间行为差异的最直观度量。

语言专项：中韩语言子排名（6 道 L-CN + L-JP 题）

只看 L-CN (L01-L04) + L-JP (L05-L06) 这 6 道语言题的均分。

#	模型	语言均分	L-CN	L-JP
🥇	kimi-today 🟢	924.1	933	906
🥈	qwen3.6-plus	920.1	931	898
🥉	claude-sonnet-4.6	905.8	909	900
#4	glm-5-turbo	897.2	905	882
#5	claude-opus-4.6	896.0	892	904
#6	glm-5.1	877.7	888	857
#7	qwen3.5-plus	869.4	905	799
#8	deepseek-reasoner	868.2	886	833
#9	gpt-5.4	861.5	849	886
#10	deepseek-chat	860.1	885	810
#11	kimi-2.6-code-preview 🔴	851.9	879	797
#12	gpt-5.4-mini	850.2	832	886
#13	minimax-m2.7	740.2	757	706

kimi-today 语言专项排名第一！领先 qwen3.6-plus 4分，领先旧版 kimi 72.2分。

各维度子排名

M · 数学

#	模型	均分
1	minimax-m2.7	962.5
2	qwen3.5-plus	960.6
3	claude-sonnet-4.6	958.5
4	claude-opus-4.6	955.6
5	qwen3.6-plus	955.6
...	...	...
12	kimi-today 🟢	942.5
13	gpt-5.4	939.2

P · 编程

#	模型	均分
1	kimi-today 🟢	915.5
2	claude-sonnet-4.6	911.9
3	claude-opus-4.6	906.2
...	...	...
13	kimi-2.6-code-preview 🔴	830.0

R · 推理

#	模型	均分
1	qwen3.5-plus	951.0
2	glm-5.1	948.9
3	kimi-today 🟢	947.5
4	claude-sonnet-4.6	947.0

A · 指令遵循 / Agent

#	模型	均分
1	qwen3.5-plus	902.1
2	qwen3.6-plus	900.5
3	claude-sonnet-4.6	896.0
...	...	...
11	kimi-today 🟢	826.6
13	kimi-2.6-code-preview 🔴	808.6

L-CN · 中文语言

#	模型	均分
1	kimi-today 🟢	932.8
2	qwen3.6-plus	931.1
3	claude-sonnet-4.6	908.6
...	...	...
13	minimax-m2.7	757.1

L-JP · 日语语言

#	模型	均分
1	kimi-today 🟢	906.5
2	claude-opus-4.6	903.5
3	claude-sonnet-4.6	900.4
...	...	...
12	kimi-2.6-code-preview 🔴	797.0
13	minimax-m2.7	706.4

关键发现

claude-sonnet-4.6 总分夺冠：928.2分，综合实力最强
kimi-today 编程、日语均第一：编程均分 915.5，日语 906.5，两个维度双冠
kimi-today 中文语言第一：L-CN 均分 932.8，全面领先
qwen3.5-plus 数学+推理+Agent 三冠：数学 960.6，推理 951.0，Agent 902.1
kimi 3天跃升 37 分：从 877.7→914.7，进步 7 个位次
kimi 语言进步 72.2 分：从语言第11→第1，中日双语能力大幅提升
minimax-m2.7 数学第一但语言垫底：M 962.5 最高，L-JP 706.4 最低

Generated 2026-04-13 · round2-double-judge · 13 contestants × 30 questions × 2 judges = 780 scores

加载中...

发表评论

0/1000