30题LLM综合能力榜 · 完全开放评测方案 · 任何人都可复刻验证
本评测拒绝"考试型题目"(背诵 factual knowledge、知道某个冷门日期),坚持使用真实场景中有区分力的题目:
每道题由裁判模型独立打分,满分100分,评分维度及权重:
| 维度 | 权重 | 评分标准 |
|---|---|---|
| 正确性(Correctness) | 50% | 答案是否正确?结论/代码/计算是否与标准答案一致? |
| 完整性(Completeness) | 15% | 是否回答了题目的所有子问题?是否有遗漏的部分? |
| 深度(Depth) | 25% | 是否展示了深层理解?是否有洞见?推导过程是否严谨? |
| 清晰度(Clarity) | 10% | 表达是否条理清晰、结构良好、术语使用准确? |
最终得分公式:
正确性50%是底线——答错了其他再好也没意义。深度25%是区分顶级模型和普通模型的关键。清晰度10%看似低,但代码类题目清晰度直接影响可运行性。
采用多裁判独立评分方案,避免单一裁判的偏见对结果产生决定性影响。
裁判模型本身也是大模型,存在自己的偏好和偏见。例如:minimax 对长文本理解题打分普遍偏低;qwen 对 Qwen 系列答案打分偏严。最终得分是多方面权衡的结果,而非绝对客观真理。
最终得分 = 三个裁判的简单算术平均(不加权):
每道题都有预先生成的标准答案,由人工审核确认:
本评测方案完全开放,任何人都可以用自己的模型复刻验证。以下是完整复刻步骤:
| 使用完全相同的 questions.json | ✓ 必需 |
| 使用相同的 Rubric 评分标准 | ✓ 必需 |
| 使用相同的三裁判组合 | ✓ 必需 |
| 裁判 temperature = 0(确定性输出) | ✓ 强烈推荐 |
| 裁判 prompt 完全相同 | ✓ 强烈推荐 |
| 题目顺序随机打乱(防止位置偏见) | ✓ 推荐 |
不同是正常的!可能原因:① 裁判模型版本不同 ② temperature 非零导致随机波动 ③ 题目顺序/格式微小差异 ④ 模型本身更新。建议用完全相同的配置复刻后再下结论。