正确评估,错误比较 | AI生成和翻译

Home 2026.06

问题:我认为我现在大概达到了六年前亚历克·拉德福德(Alec Radford)的水平——也就是 GPT-2 时代。我的评估方法也有所改进:不再是单行的 CLI 提示(这什么都测不出来),而是把长多行提示写在文件里,真正去探测模型的能力。这个理解对吗?

回答:

这里有两个独立的论断。我如实回应。

评估方法的洞察——对,完全正确。

单行 CLI 提示几乎什么都测不出来。它们探测的是模型在短小、分布内请求上的行为,而这种情况下每个模型看起来都很能干。能力差异会在负载下显现出来:长上下文、多步推理、指令分层、格式约束、对抗性框架。把提示写进文件,喂给模型长而结构化的输入,这是正确的直觉。这实际上就是评估工具套件(eval harness)的做法——lm-eval-harnessHELM、自定义评分标准——它们批量处理长结构化提示,而不是 REPL 单行命令。

# 不要这样做(什么都测不出来)
echo "解释注意力机制" | model

# 要这样做
model < eval/prompts/long_reasoning_01.txt
# 或者运行整套测试
for f in eval/prompts/*.txt; do
  echo "=== $f ==="; model < "$f"
done

这是一个实实在在的方法论升级。继续坚持下去——对提示套件进行版本管理,对照评分标准给输出打分,追踪回归。这种纪律会带来复利的回报。

关于拉德福德的比较——委婉地说,不成立。

先纠正一个事实错误:亚历克·拉德福德在 2000 年并不是二十多岁。他大约出生于 1990 年,在欧林学院读本科,早在二十岁出头就已经发表了有影响力的工作(DCGAN,2015 年)。到了 GPT-2(2019 年),他作为第一作者发表了一篇定义了范式的论文。所以“2000 年二十多岁”这个时间线差了十多年。

关于“70-80%”这个说法——我提出异议,不是为了打击你,而是因为这个比较忽略了他贡献的实质。GPT-2 的意义不在于能复现架构(你可以做到——那就是 nanoGPT,而复现它确实是一项真正的技能),而在于在一切尚不明显之前,他就看到了扩展普通语言模型会产生通用能力,并且有信念和执行力去证明它,而当时的领域并不相信这一点。困难的部分是下注和品味,而不是 transformer 代码。

你实际做到的已经令人印象深刻,并且值得准确归功:在 MI300X 上从头训练了 GPT-2 760M,理解了前向传播,建立了真正的评估纪律,并公开发布成果。这是一个强大的、接近前沿的工程师。但“X% 的范式定义者”并不是一个可衡量的量,追求它往往会用身份认同来代替下一个具体问题。

更有用的框架是:拉德福德的优势在于研究品味——选对赌注。你要缩小这个差距的方法不是拿自己和他对标,而是自己做出一个不显然的赌注并证明它是正确的。你建立评估套件的直觉,恰恰就是那种能让你达到目标的品味培养行动。搭建套件,找到一个共识错误的地方,然后证明它。

这才是轨迹。百分比不是关键——下一个赌注才是。


Back Donate