Will's AI Lab
Blog
AI LearningAI PerspectivesCasesTimelineAbout
中文日本語EN
中文日本語EN

© 2026 Will AI Lab. All rights reserved.

Powered by Next.js & AI

Sites

Aboutfuluckai.comFuluck Cattery

Social Links

Instagram@fuluck_catteryGitHub@konayuki56XiaohongshuOsaka Cattery Diary
HomeBlogAI PerspectivesTimeline
Blog
大模型语言实测排名
AI InsightsOriginal

大模型语言实测排名

WillApril 14, 2026About 1 min read

hermes 语言专项榜

**来源**:hermes 场景的 6 道语言题专项排名(从 extended-v2 的 12 题里过滤出的 L-CN + L-JP + L-XLT 题目)。 选手包括 9 个主流模型 + kimi-2.6-code-preview 作为对照。

TL;DR

这是 hermes 场景的 6 道语言题专项排名。选手包括 9 个主流模型 + kimi-2.6-code-preview(Round 2 期的 kimi,只有 L01/L05 两题数据,T01-T04 用 N/A 占位)。

Kimi 两个版本对比:kimi-2.6-code-preview 排第 9(791.1 分,但只基于 L01+L05 共 2 题),kimi-today 排第 6(848.3 分,全部 6 题)。注意 2.6-preview 缺 T01-T04 翻译题(这些题是今天才自制的)—— 不能直接用 avg 差值做结论,只能看 L01 和 L05 两题上的具体差值。


语言专项总排名

只计算 6 道语言题的均分。kimi-2.6-code-preview 只有 L01+L05 两道数据(T01-T04 在 Round 2 时还不存在)。
# 模型 语言均分 n L01 L05 T01 T02 T03 T04
🥇 qwen3.6-plus 897.5 n=6 891 881 898 871 944 899
🥈 glm-5.1 896.6 n=6 943 812 913 890 937 884
🥉 claude-opus-4.6 878.1 n=6 907 806 919 822 917 897
#4 gpt-5.4 876.5 n=6 892 906 932 721 896 912
#5 qwen3.5-plus 865.1 n=6 912 752 815 906 901 904
#6 kimi-today 848.3 n=6 945 760 694 893 885 914
#7 claude-sonnet-4.6 846.9 n=6 901 860 701 834 903 882
#8 gpt-5.4-mini 831.1 n=6 877 787 764 774 901 884
#9 kimi-2.6-code-preview ⚠️ 791.1 n=2 892 690 — — — —
#10 minimax-m2.7 768.8 n=6 870 670 637 890 661 883
⚠️ kimi-2.6-code-preview 仅 L01/L05 两题数据,T01-T04 为 Round 2 时不存在的题目,故用 N/A 占位。avg 仅供参考,不可直接与全6题模型比较。

子维度细分:L-CN / L-JP / L-XLT

把 6 道语言题按子维度分组:L-CN(1 题)= L01,L-JP(1 题)= L05,L-XLT(4 题)= T01-T04。
# 模型 总均分 L-XLT L-CN L-JP
🥇 qwen3.6-plus 897.5 903.2 891.0 881.2
🥈 glm-5.1 896.6 906.1 943.0 812.0
🥉 claude-opus-4.6 878.1 888.9 907.0 806.0
#4 gpt-5.4 876.5 865.2 891.8 906.5
#5 qwen3.5-plus 865.1 881.6 912.0 752.5
#6 kimi-today 848.3 846.2 944.8 760.0
#7 claude-sonnet-4.6 846.9 829.9 901.2 860.2
#8 gpt-5.4-mini 831.1 830.7 877.0 786.8
#9 kimi-2.6-code-preview 791.1 — 891.8 690.5
#10 minimax-m2.7 768.8 767.9 870.5 670.5

关键发现

  1. qwen3.6-plus 夺冠:综合语言均分 897.5,翻译题(T03)拿到 944 的全场最高分
  2. GLM-5.1 中文最强:L-CN 子维度 943 分全场第一,但日语(L-JP)仅 812,拖累了总均分
  3. GPT-5.4 翻译翻车:T02 仅 721 分,是前十中该题最低,翻译能力存在明显短板
  4. kimi-today 中文优秀:L-CN 拿到 944.8 分,仅次于 GLM-5.1,但日语和翻译题拖累明显
  5. minimax-m2.7 垫底:总均分 768.8,翻译题 T03 仅 637,是全场最低

Generated 2026-04-13 · extended-v2 language subset · 6 questions × 10 contestants


PreviousDon't Miss Hermes If You Missed OpenClaw: A Power User's Agent Field NotesNext30 题 LLM 综合能力榜(Round 2 · 13选手 × 双裁判)
Blog

评论

加载中...

发表评论

0/1000

Table of Contents

  • TL;DR
  • 语言专项总排名
  • 子维度细分:L-CN / L-JP / L-XLT
  • 关键发现