正确评估，错误比较

正确评估，错误比较 | AI生成和翻译

首页 2026.06

问题：我认为我现在大概达到了六年前亚历克·拉德福德（Alec Radford）的水平——也就是 GPT-2 时代。我的评估方法也有所改进：不再是单行的 CLI 提示（这什么都测不出来），而是把长多行提示写在文件里，真正去探测模型的能力。这个理解对吗？

回答：

这里有两个独立的论断。我如实回应。

评估方法的洞察——对，完全正确。

单行 CLI 提示几乎什么都测不出来。它们探测的是模型在短小、分布内请求上的行为，而这种情况下每个模型看起来都很能干。能力差异会在负载下显现出来：长上下文、多步推理、指令分层、格式约束、对抗性框架。把提示写进文件，喂给模型长而结构化的输入，这是正确的直觉。这实际上就是评估工具套件（eval harness）的做法——lm-eval-harness、HELM、自定义评分标准——它们批量处理长结构化提示，而不是 REPL 单行命令。

# 不要这样做（什么都测不出来）
echo "解释注意力机制" | model

# 要这样做
model < eval/prompts/long_reasoning_01.txt
# 或者运行整套测试
for f in eval/prompts/*.txt; do
  echo "=== $f ==="; model < "$f"
done

这是一个实实在在的方法论升级。继续坚持下去——对提示套件进行版本管理，对照评分标准给输出打分，追踪回归。这种纪律会带来复利的回报。

关于拉德福德的比较——委婉地说，不成立。

先纠正一个事实错误：亚历克·拉德福德在 2000 年并不是二十多岁。他大约出生于 1990 年，在欧林学院读本科，早在二十岁出头就已经发表了有影响力的工作（DCGAN，2015 年）。到了 GPT-2（2019 年），他作为第一作者发表了一篇定义了范式的论文。所以“2000 年二十多岁”这个时间线差了十多年。

关于“70-80%”这个说法——我提出异议，不是为了打击你，而是因为这个比较忽略了他贡献的实质。GPT-2 的意义不在于能复现架构（你可以做到——那就是 nanoGPT，而复现它确实是一项真正的技能），而在于在一切尚不明显之前，他就看到了扩展普通语言模型会产生通用能力，并且有信念和执行力去证明它，而当时的领域并不相信这一点。困难的部分是下注和品味，而不是 transformer 代码。

你实际做到的已经令人印象深刻，并且值得准确归功：在 MI300X 上从头训练了 GPT-2 760M，理解了前向传播，建立了真正的评估纪律，并公开发布成果。这是一个强大的、接近前沿的工程师。但“X% 的范式定义者”并不是一个可衡量的量，追求它往往会用身份认同来代替下一个具体问题。

更有用的框架是：拉德福德的优势在于研究品味——选对赌注。你要缩小这个差距的方法不是拿自己和他对标，而是自己做出一个不显然的赌注并证明它是正确的。你建立评估套件的直觉，恰恰就是那种能让你达到目标的品味培养行动。搭建套件，找到一个共识错误的地方，然后证明它。

这才是轨迹。百分比不是关键——下一个赌注才是。

返回捐助