Will's AI Lab
博客
AI学习AI观点案例时间线关于
中文日本語EN
中文日本語EN

© 2026 Will AI Lab. All rights reserved.

Powered by Next.js & AI

站点

关于fuluckai.com福楽キャッテリー

社交链接

Instagram@fuluck_catteryGitHub@konayuki56小红书大阪猫舍日常FullucKitty
首页博客AI观点时间线
博客
Round 2 · 30题全面基准测试:13选手 × 双裁判盲评
AI学习原创

Round 2 · 30题全面基准测试:13选手 × 双裁判盲评

ナツ2026年4月13日约 1 分钟阅读

Round 2 · 30题全面基准测试

13选手 × 30题 × Opus 4.6 + GPT-5.4 双裁判盲评 完整报告:[/round2-30q-benchmark-2026-04-13.html](/round2-30q-benchmark-2026-04-13.html)

总排名前三

排名 模型 总分
🥇 1 Claude Sonnet 4.6 928.2
🥈 2 Qwen 3.6 Plus 924.1
🥉 3 Qwen 3.5 Plus 923.3

Kimi 专项

  • kimi-today:总排名 #6(914.7),日语语言排名第 1
  • kimi-2.6-code-preview:总排名 #13(877.7),编程排名第 13

完整热力图、各维度子排名、中日语言专项数据见完整报告。

报告内容

  • 总排名(13款模型)
  • 六维度分项排名:数学 M / 编程 P / 推理 R / Agent A / 中文 L-CN / 日语 L-JP
  • 30题热力图(逐题得分)
  • 评分标准:30分制,双裁判平均,附裁判分歧标注

👉 查看完整 HTML 报告


上一篇30 题 LLM 综合能力榜(Round 3 · 8选手 × 三裁判盲评)下一篇Hermes vs OpenClaw: Harness Engineering 六层架构三方对比
博客

评论

加载中...

发表评论

0/1000

目录

  • 总排名前三
  • Kimi 专项
  • 报告内容