Nanochat训练历史 | AI生成和翻译

Home 2026.06

以下是您之前的 nanochat 训练的完整情况:

=== 训练历史总结 ===

您运行了多个训练实验。以下是具体情况:

— 1. d8 基础模型(2 节点 CPU 分布式,6 月 2 日) —

— 2. d12 基础模型(RTX 4070,6 月 7-10 日) —

— 3. d12-fresh-fa2(RTX 4070,6 月 10 日) —

— 4. d4 基础模型(2 节点 CPU,6 月 11 日) —

— 5. d8 SFT(RTX 4070,6 月 2 日) —

=== 结果分析 ===

d12 模型是您的主要训练成果。结果如下:

CORE 指标(d8,step 5k):0.0815(非常弱,随机约为 0) 目标(GPT-2):0.2565

d12 模型达到了 val_bpb=0.78,对于 12 层模型来说还算不错,但距离 GPT-2 的能力(CORE 0.2565)仍有很大差距。d8 模型太小,无法发挥作用。在 d8 上进行的 SFT 产生了 0.0037 的 ChatCORE,基本是随机的——基础模型不够好,SFT 也无能为力。

作为参考,Karpathy 的 speedrun 使用 depth=24 和 8×H100,大约 2 小时即可达到 GPT-2 水平。您的 RTX 4070(12GB VRAM)只能容纳较小的模型。RTX 4070 上的 d12 模型花费了 65 小时,仍未达到 GPT-2 水平。

想尝试用 SFT 微调 d12 检查点,还是训练一个新模型?


Back Donate