Will's AI Lab
博客
AI学习AI观点案例时间线关于
中文日本語EN
中文日本語EN

© 2026 Will AI Lab. All rights reserved.

Powered by Next.js & AI

站点

关于fuluckai.com福楽キャッテリー

社交链接

Instagram@fuluck_catteryGitHub@konayuki56小红书大阪猫舍日常FullucKitty
首页博客AI观点时间线
博客
30 题 LLM 综合能力榜(Round 2 · 13选手 × 双裁判)
AI心得原创

30 题 LLM 综合能力榜(Round 2 · 13选手 × 双裁判)

Will2026年4月14日约 2 分钟阅读

30 题 LLM 综合能力榜

**Round 2 · 13 选手 × 双裁判** | v2 题库 × 双裁判(Opus 4.6 + GPT-5.4)匿名盲评

TL;DR

这是完整的 30 题 v2 题库 × 13 选手 × 双裁判(Opus 4.6 + GPT-5.4)的综合能力排行榜。与 extended-v2 专注 hermes 场景的 12 题版本不同,这份报告涵盖了数学、编程、推理、指令遵循、中文语言、日语语言全部 6 个维度。

关键观察:kimi-2.6-code-preview 和 kimi-today 作为『同一 API 端点的不同时间版本』被显式分开排名,可以直接看出 kimi 在 3 天内的能力跃升。


总排名:13 选手 × 30 题加权总分

用 v2 题库原始 weight_multiplier 加权(不是 hermes 的 4x CJK 权重)。
# 模型 加权总分 M P R A L-CN L-JP
🥇 claude-sonnet-4.6 928.2 959 912 947 896 909 900
🥈 qwen3.6-plus 924.1 956 888 943 900 931 898
🥉 qwen3.5-plus 923.3 961 890 951 902 905 799
#4 glm-5-turbo 921.5 953 904 924 873 905 882
#5 claude-opus-4.6 919.4 956 906 943 866 892 904
#6 kimi-today 🟢 914.7 942 916 948 827 933 906
#7 glm-5.1 913.4 955 879 949 859 888 857
#8 gpt-5.4 909.0 939 897 943 867 849 886
#9 gpt-5.4-mini 900.0 945 876 910 845 832 886
#10 deepseek-reasoner 898.7 943 868 934 819 886 833
#11 minimax-m2.7 894.8 963 875 927 889 757 706
#12 deepseek-chat 889.9 943 871 898 830 885 810
#13 kimi-2.6-code-preview 🔴 877.7 941 830 934 809 879 797

🧪 Kimi 时间版本直接对比

指标 kimi-2.6-code-preview (旧) kimi-today (新) 差距
总排名位次 第 13 名 第 6 名 ↑7 位
加权总分 877.7 914.7 +37.0
中日语言均分 851.9 (第11) 924.1 (第1) +72.2
编程 P 830 (第13) 916 (第1) +86
这两个数字的重要性在于:Round 2(2026-04-10)测试期间 kimi-k2.5 endpoint 返回的是 2.6-preview 输出;今天(2026-04-13)再跑同样的 30 题,返回的是预览结束后的稳定版本。两个版本在同一榜单上的位次差,是对 2.6-preview 和后续稳定版之间行为差异的最直观度量。

语言专项:中韩语言子排名(6 道 L-CN + L-JP 题)

只看 L-CN (L01-L04) + L-JP (L05-L06) 这 6 道语言题的均分。
# 模型 语言均分 L-CN L-JP
🥇 kimi-today 🟢 924.1 933 906
🥈 qwen3.6-plus 920.1 931 898
🥉 claude-sonnet-4.6 905.8 909 900
#4 glm-5-turbo 897.2 905 882
#5 claude-opus-4.6 896.0 892 904
#6 glm-5.1 877.7 888 857
#7 qwen3.5-plus 869.4 905 799
#8 deepseek-reasoner 868.2 886 833
#9 gpt-5.4 861.5 849 886
#10 deepseek-chat 860.1 885 810
#11 kimi-2.6-code-preview 🔴 851.9 879 797
#12 gpt-5.4-mini 850.2 832 886
#13 minimax-m2.7 740.2 757 706

kimi-today 语言专项排名第一!领先 qwen3.6-plus 4分,领先旧版 kimi 72.2分。


各维度子排名

M · 数学

# 模型 均分
1 minimax-m2.7 962.5
2 qwen3.5-plus 960.6
3 claude-sonnet-4.6 958.5
4 claude-opus-4.6 955.6
5 qwen3.6-plus 955.6
... ... ...
12 kimi-today 🟢 942.5
13 gpt-5.4 939.2

P · 编程

# 模型 均分
1 kimi-today 🟢 915.5
2 claude-sonnet-4.6 911.9
3 claude-opus-4.6 906.2
... ... ...
13 kimi-2.6-code-preview 🔴 830.0

R · 推理

# 模型 均分
1 qwen3.5-plus 951.0
2 glm-5.1 948.9
3 kimi-today 🟢 947.5
4 claude-sonnet-4.6 947.0

A · 指令遵循 / Agent

# 模型 均分
1 qwen3.5-plus 902.1
2 qwen3.6-plus 900.5
3 claude-sonnet-4.6 896.0
... ... ...
11 kimi-today 🟢 826.6
13 kimi-2.6-code-preview 🔴 808.6

L-CN · 中文语言

# 模型 均分
1 kimi-today 🟢 932.8
2 qwen3.6-plus 931.1
3 claude-sonnet-4.6 908.6
... ... ...
13 minimax-m2.7 757.1

L-JP · 日语语言

# 模型 均分
1 kimi-today 🟢 906.5
2 claude-opus-4.6 903.5
3 claude-sonnet-4.6 900.4
... ... ...
12 kimi-2.6-code-preview 🔴 797.0
13 minimax-m2.7 706.4

关键发现

  1. claude-sonnet-4.6 总分夺冠:928.2分,综合实力最强
  2. kimi-today 编程、日语均第一:编程均分 915.5,日语 906.5,两个维度双冠
  3. kimi-today 中文语言第一:L-CN 均分 932.8,全面领先
  4. qwen3.5-plus 数学+推理+Agent 三冠:数学 960.6,推理 951.0,Agent 902.1
  5. kimi 3天跃升 37 分:从 877.7→914.7,进步 7 个位次
  6. kimi 语言进步 72.2 分:从语言第11→第1,中日双语能力大幅提升
  7. minimax-m2.7 数学第一但语言垫底:M 962.5 最高,L-JP 706.4 最低

Generated 2026-04-13 · round2-double-judge · 13 contestants × 30 questions × 2 judges = 780 scores


上一篇大模型语言实测排名下一篇30 题 LLM 综合能力榜(Round 3 · 8选手 × 三裁判盲评)
博客

评论

加载中...

发表评论

0/1000

目录

  • TL;DR
  • 总排名:13 选手 × 30 题加权总分
  • 🧪 Kimi 时间版本直接对比
  • 语言专项:中韩语言子排名(6 道 L-CN + L-JP 题)
  • 各维度子排名
  • M · 数学
  • P · 编程
  • R · 推理
  • A · 指令遵循 / Agent
  • L-CN · 中文语言
  • L-JP · 日语语言
  • 关键发现