AI心得原创
大模型语言实测排名
Will约 1 分钟阅读
hermes 语言专项榜
**来源**:hermes 场景的 6 道语言题专项排名(从 extended-v2 的 12 题里过滤出的 L-CN + L-JP + L-XLT 题目)。 选手包括 9 个主流模型 + kimi-2.6-code-preview 作为对照。
TL;DR
这是 hermes 场景的 6 道语言题专项排名。选手包括 9 个主流模型 + kimi-2.6-code-preview(Round 2 期的 kimi,只有 L01/L05 两题数据,T01-T04 用 N/A 占位)。
Kimi 两个版本对比:kimi-2.6-code-preview 排第 9(791.1 分,但只基于 L01+L05 共 2 题),kimi-today 排第 6(848.3 分,全部 6 题)。注意 2.6-preview 缺 T01-T04 翻译题(这些题是今天才自制的)—— 不能直接用 avg 差值做结论,只能看 L01 和 L05 两题上的具体差值。
语言专项总排名
只计算 6 道语言题的均分。kimi-2.6-code-preview 只有 L01+L05 两道数据(T01-T04 在 Round 2 时还不存在)。
| # | 模型 | 语言均分 | n | L01 | L05 | T01 | T02 | T03 | T04 |
|---|---|---|---|---|---|---|---|---|---|
| 🥇 | qwen3.6-plus | 897.5 | n=6 | 891 | 881 | 898 | 871 | 944 | 899 |
| 🥈 | glm-5.1 | 896.6 | n=6 | 943 | 812 | 913 | 890 | 937 | 884 |
| 🥉 | claude-opus-4.6 | 878.1 | n=6 | 907 | 806 | 919 | 822 | 917 | 897 |
| #4 | gpt-5.4 | 876.5 | n=6 | 892 | 906 | 932 | 721 | 896 | 912 |
| #5 | qwen3.5-plus | 865.1 | n=6 | 912 | 752 | 815 | 906 | 901 | 904 |
| #6 | kimi-today | 848.3 | n=6 | 945 | 760 | 694 | 893 | 885 | 914 |
| #7 | claude-sonnet-4.6 | 846.9 | n=6 | 901 | 860 | 701 | 834 | 903 | 882 |
| #8 | gpt-5.4-mini | 831.1 | n=6 | 877 | 787 | 764 | 774 | 901 | 884 |
| #9 | kimi-2.6-code-preview ⚠️ | 791.1 | n=2 | 892 | 690 | — | — | — | — |
| #10 | minimax-m2.7 | 768.8 | n=6 | 870 | 670 | 637 | 890 | 661 | 883 |
⚠️ kimi-2.6-code-preview 仅 L01/L05 两题数据,T01-T04 为 Round 2 时不存在的题目,故用 N/A 占位。avg 仅供参考,不可直接与全6题模型比较。
子维度细分:L-CN / L-JP / L-XLT
把 6 道语言题按子维度分组:L-CN(1 题)= L01,L-JP(1 题)= L05,L-XLT(4 题)= T01-T04。
| # | 模型 | 总均分 | L-XLT | L-CN | L-JP |
|---|---|---|---|---|---|
| 🥇 | qwen3.6-plus | 897.5 | 903.2 | 891.0 | 881.2 |
| 🥈 | glm-5.1 | 896.6 | 906.1 | 943.0 | 812.0 |
| 🥉 | claude-opus-4.6 | 878.1 | 888.9 | 907.0 | 806.0 |
| #4 | gpt-5.4 | 876.5 | 865.2 | 891.8 | 906.5 |
| #5 | qwen3.5-plus | 865.1 | 881.6 | 912.0 | 752.5 |
| #6 | kimi-today | 848.3 | 846.2 | 944.8 | 760.0 |
| #7 | claude-sonnet-4.6 | 846.9 | 829.9 | 901.2 | 860.2 |
| #8 | gpt-5.4-mini | 831.1 | 830.7 | 877.0 | 786.8 |
| #9 | kimi-2.6-code-preview | 791.1 | — | 891.8 | 690.5 |
| #10 | minimax-m2.7 | 768.8 | 767.9 | 870.5 | 670.5 |
关键发现
- qwen3.6-plus 夺冠:综合语言均分 897.5,翻译题(T03)拿到 944 的全场最高分
- GLM-5.1 中文最强:L-CN 子维度 943 分全场第一,但日语(L-JP)仅 812,拖累了总均分
- GPT-5.4 翻译翻车:T02 仅 721 分,是前十中该题最低,翻译能力存在明显短板
- kimi-today 中文优秀:L-CN 拿到 944.8 分,仅次于 GLM-5.1,但日语和翻译题拖累明显
- minimax-m2.7 垫底:总均分 768.8,翻译题 T03 仅 637,是全场最低
Generated 2026-04-13 · extended-v2 language subset · 6 questions × 10 contestants
Will's Take
10款主流大模型语言能力实测,qwen3.6-plus夺冠,中日翻译题成关键分野
评论
加载中...
发表评论
0/1000