AI InsightsOriginal

大模型语言实测排名

WillApril 14, 2026About 1 min read

hermes 语言专项榜

**来源**：hermes 场景的 6 道语言题专项排名（从 extended-v2 的 12 题里过滤出的 L-CN + L-JP + L-XLT 题目）。选手包括 9 个主流模型 + kimi-2.6-code-preview 作为对照。

TL;DR

这是 hermes 场景的 6 道语言题专项排名。选手包括 9 个主流模型 + kimi-2.6-code-preview（Round 2 期的 kimi，只有 L01/L05 两题数据，T01-T04 用 N/A 占位）。

Kimi 两个版本对比：kimi-2.6-code-preview 排第 9（791.1 分，但只基于 L01+L05 共 2 题），kimi-today 排第 6（848.3 分，全部 6 题）。注意 2.6-preview 缺 T01-T04 翻译题（这些题是今天才自制的）—— 不能直接用 avg 差值做结论，只能看 L01 和 L05 两题上的具体差值。

语言专项总排名

只计算 6 道语言题的均分。kimi-2.6-code-preview 只有 L01+L05 两道数据（T01-T04 在 Round 2 时还不存在）。

#	模型	语言均分	n	L01	L05	T01	T02	T03	T04
🥇	qwen3.6-plus	897.5	n=6	891	881	898	871	944	899
🥈	glm-5.1	896.6	n=6	943	812	913	890	937	884
🥉	claude-opus-4.6	878.1	n=6	907	806	919	822	917	897
#4	gpt-5.4	876.5	n=6	892	906	932	721	896	912
#5	qwen3.5-plus	865.1	n=6	912	752	815	906	901	904
#6	kimi-today	848.3	n=6	945	760	694	893	885	914
#7	claude-sonnet-4.6	846.9	n=6	901	860	701	834	903	882
#8	gpt-5.4-mini	831.1	n=6	877	787	764	774	901	884
#9	kimi-2.6-code-preview ⚠️	791.1	n=2	892	690	—	—	—	—
#10	minimax-m2.7	768.8	n=6	870	670	637	890	661	883

⚠️ kimi-2.6-code-preview 仅 L01/L05 两题数据，T01-T04 为 Round 2 时不存在的题目，故用 N/A 占位。avg 仅供参考，不可直接与全6题模型比较。

子维度细分：L-CN / L-JP / L-XLT

把 6 道语言题按子维度分组：L-CN（1 题）= L01，L-JP（1 题）= L05，L-XLT（4 题）= T01-T04。

#	模型	总均分	L-XLT	L-CN	L-JP
🥇	qwen3.6-plus	897.5	903.2	891.0	881.2
🥈	glm-5.1	896.6	906.1	943.0	812.0
🥉	claude-opus-4.6	878.1	888.9	907.0	806.0
#4	gpt-5.4	876.5	865.2	891.8	906.5
#5	qwen3.5-plus	865.1	881.6	912.0	752.5
#6	kimi-today	848.3	846.2	944.8	760.0
#7	claude-sonnet-4.6	846.9	829.9	901.2	860.2
#8	gpt-5.4-mini	831.1	830.7	877.0	786.8
#9	kimi-2.6-code-preview	791.1	—	891.8	690.5
#10	minimax-m2.7	768.8	767.9	870.5	670.5

关键发现

qwen3.6-plus 夺冠：综合语言均分 897.5，翻译题（T03）拿到 944 的全场最高分
GLM-5.1 中文最强：L-CN 子维度 943 分全场第一，但日语（L-JP）仅 812，拖累了总均分
GPT-5.4 翻译翻车：T02 仅 721 分，是前十中该题最低，翻译能力存在明显短板
kimi-today 中文优秀：L-CN 拿到 944.8 分，仅次于 GLM-5.1，但日语和翻译题拖累明显
minimax-m2.7 垫底：总均分 768.8，翻译题 T03 仅 637，是全场最低

Generated 2026-04-13 · extended-v2 language subset · 6 questions × 10 contestants

加载中...

发表评论

0/1000

TL;DR

这是 hermes 场景的 6 道语言题专项排名。选手包括 9 个主流模型 + kimi-2.6-code-preview（Round 2 期的 kimi，只有 L01/L05 两题数据，T01-T04 用 N/A 占位）。

语言专项总排名

只计算 6 道语言题的均分。kimi-2.6-code-preview 只有 L01+L05 两道数据（T01-T04 在 Round 2 时还不存在）。

#	模型	语言均分	n	L01	L05	T01	T02	T03	T04
🥇	qwen3.6-plus	897.5	n=6	891	881	898	871	944	899
🥈	glm-5.1	896.6	n=6	943	812	913	890	937	884
🥉	claude-opus-4.6	878.1	n=6	907	806	919	822	917	897
#4	gpt-5.4	876.5	n=6	892	906	932	721	896	912
#5	qwen3.5-plus	865.1	n=6	912	752	815	906	901	904
#6	kimi-today	848.3	n=6	945	760	694	893	885	914
#7	claude-sonnet-4.6	846.9	n=6	901	860	701	834	903	882
#8	gpt-5.4-mini	831.1	n=6	877	787	764	774	901	884
#9	kimi-2.6-code-preview ⚠️	791.1	n=2	892	690	—	—	—	—
#10	minimax-m2.7	768.8	n=6	870	670	637	890	661	883

⚠️ kimi-2.6-code-preview 仅 L01/L05 两题数据，T01-T04 为 Round 2 时不存在的题目，故用 N/A 占位。avg 仅供参考，不可直接与全6题模型比较。

子维度细分：L-CN / L-JP / L-XLT

把 6 道语言题按子维度分组：L-CN（1 题）= L01，L-JP（1 题）= L05，L-XLT（4 题）= T01-T04。

#	模型	总均分	L-XLT	L-CN	L-JP
🥇	qwen3.6-plus	897.5	903.2	891.0	881.2
🥈	glm-5.1	896.6	906.1	943.0	812.0
🥉	claude-opus-4.6	878.1	888.9	907.0	806.0
#4	gpt-5.4	876.5	865.2	891.8	906.5
#5	qwen3.5-plus	865.1	881.6	912.0	752.5
#6	kimi-today	848.3	846.2	944.8	760.0
#7	claude-sonnet-4.6	846.9	829.9	901.2	860.2
#8	gpt-5.4-mini	831.1	830.7	877.0	786.8
#9	kimi-2.6-code-preview	791.1	—	891.8	690.5
#10	minimax-m2.7	768.8	767.9	870.5	670.5

关键发现

qwen3.6-plus 夺冠：综合语言均分 897.5，翻译题（T03）拿到 944 的全场最高分

GLM-5.1 中文最强：L-CN 子维度 943 分全场第一，但日语（L-JP）仅 812，拖累了总均分

GPT-5.4 翻译翻车：T02 仅 721 分，是前十中该题最低，翻译能力存在明显短板

kimi-today 中文优秀：L-CN 拿到 944.8 分，仅次于 GLM-5.1，但日语和翻译题拖累明显

minimax-m2.7 垫底：总均分 768.8，翻译题 T03 仅 637，是全场最低

Generated 2026-04-13 · extended-v2 language subset · 6 questions × 10 contestants