Skip to content

评测基准深入

「你知道哪些大模型评测基准?榜单分数能信吗?」是评估方向的高频追问。本文按能力维度梳理主流 Benchmark,并讲清如何批判性地看待分数。基础评估方法见 模型评估与幻觉

为什么需要基准?

基准(Benchmark)用标准化数据集量化模型在特定能力上的表现,让不同模型可横向比较、迭代可追踪。但任何单一基准都只是能力的一个切面,要组合多个、并警惕其局限。

按能力维度看主流基准

知识与综合理解

  • MMLU:57 个学科的多选题,衡量广博知识,最常被引用。
  • MMLU-Pro:MMLU 加难版(更多选项、更强推理),缓解了 MMLU 接近饱和的问题。
  • GPQA:研究生级别、专家都难答的「Google-proof」难题,区分顶尖模型。
  • C-Eval / CMMLU:中文多学科知识基准。
  • AGIEval:基于人类考试(高考、公考、法考等)的综合评测。

数学推理

  • GSM8K:小学数学应用题,考多步算术推理。
  • MATH:竞赛级数学题,难度远高于 GSM8K。
  • AIME:数学竞赛题,推理模型常用的高难标尺。

代码

  • HumanEval:根据函数描述写代码,用单元测试判对错,指标是 Pass@k
  • MBPP:入门级 Python 编程题。
  • LiveCodeBench / SWE-bench:前者用「持续更新的新题」防污染;后者考真实 GitHub issue 的修复,更贴近工程实战。

推理与指令遵循

  • BBH(BIG-Bench Hard):一组高难推理任务。
  • DROP:需要离散推理(计数、排序、算术)的阅读理解。
  • IFEval:考严格遵循指令的能力(如「正好 3 段」「包含某关键词」),可程序化验证。

对话与人类偏好

  • MT-Bench:多轮对话质量,用 LLM-as-a-Judge 打分。
  • Chatbot Arena(LMArena):真实用户两两盲评 + Elo/Bradley-Terry 排名,是公认权威的人类偏好排行。

长上下文 / Agent / 多模态 / 安全

  • 长上下文:Needle-in-a-Haystack(大海捞针)、RULER、LongBench。
  • Agent:GAIA、AgentBench、τ-bench(工具调用)。
  • 多模态:MMMU、MathVista、MMBench。
  • 安全:ToxiGen、TruthfulQA(诚实性/抗误导)、各类越狱评测。

Pass@k 是什么?

代码评测常用指标:对同一题采样 k 个答案,只要有一个通过测试就算对,统计通过率。

  • Pass@1:一次就对的概率,反映「稳定正确」的能力。
  • Pass@10/100:多试几次能不能对,反映「潜力上限」。
  • 二者差距大说明模型「会做但不稳」。

数据污染(Data Contamination)

评测可信度的头号杀手。

如果测试题(或答案)泄漏进了训练数据,模型相当于「考前背了答案」,分数虚高、不反映真实泛化能力。应对:

  • 新题 / 持续更新的基准(LiveCodeBench、Arena 的实时对战)。
  • 污染检测(n-gram 重叠、改写题目后看掉分幅度)。
  • 关注私有 / held-out 测试集。

如何批判性地看榜单?

  • 看任务匹配度:你的场景是写代码就重点看代码榜,别只盯综合分。
  • 警惕刷榜:有的模型针对基准过拟合(甚至污染),实际体验未必好。
  • 静态榜 vs 动态榜:静态基准会饱和、易污染;Chatbot Arena 这类动态人评更难作弊。
  • 多维度组合:知识 + 推理 + 代码 + 指令遵循 + 安全 + 真实体验一起看。
  • 看评测方法:few-shot 数、是否用 CoT、judge 是谁,都会影响分数,比较时要对齐口径。

高频追问

Q:MMLU 分数高就一定是好模型吗? 不一定。MMLU 只测多选知识,已接近饱和且存在污染风险;它不反映生成质量、指令遵循、推理深度、安全性和真实对话体验。要结合 GPQA/MATH/代码/Arena 等多维度看。

Q:为什么说 Chatbot Arena 更可信? 它用真实用户对匿名模型两两盲评、按胜负算 Elo 排名,没有固定题库可背、难以针对性刷分,且直接反映人类偏好,所以被视为权威。缺点是慢、受用户群体和题型分布影响。

Q:数据污染怎么发现和防范? 发现:检测训练语料与测试集的 n-gram 重叠、把题目改写后看是否大幅掉分。防范:用持续更新的新题基准、私有 held-out 测试集、实时对战评测。

Q:Pass@1 和 Pass@100 差很多说明什么? 说明模型「有能力但不稳定」——多采样能蒙对,但单次正确率低。这也是为什么推理模型 + 多采样投票(Self-Consistency)能显著提分。

Q:评测大模型有哪些「坑」? 数据污染、基准饱和、评测口径不一致(few-shot/CoT 差异)、LLM-as-a-Judge 的位置/长度/自我偏好、单一指标以偏概全、刷榜过拟合。要多维度、对齐口径、辅以人评和真实场景测试。

基于 MIT 许可发布