Nanochat训练历史

Nanochat训练历史 | AI生成和翻译

首页 2026.06

以下是您之前的 nanochat 训练的完整情况：

=== 训练历史总结 ===

您运行了多个训练实验。以下是具体情况：

— 1. d8 基础模型（2 节点 CPU 分布式，6 月 2 日） —

— 2. d12 基础模型（RTX 4070，6 月 7-10 日） —

— 3. d12-fresh-fa2（RTX 4070，6 月 10 日） —

— 4. d4 基础模型（2 节点 CPU，6 月 11 日） —

— 5. d8 SFT（RTX 4070，6 月 2 日） —

=== 结果分析 ===

d12 模型是您的主要训练成果。结果如下：

CORE 指标（d8，step 5k）：0.0815（非常弱，随机约为 0）目标（GPT-2）：0.2565

d12 模型达到了 val_bpb=0.78，对于 12 层模型来说还算不错，但距离 GPT-2 的能力（CORE 0.2565）仍有很大差距。d8 模型太小，无法发挥作用。在 d8 上进行的 SFT 产生了 0.0037 的 ChatCORE，基本是随机的——基础模型不够好，SFT 也无能为力。

作为参考，Karpathy 的 speedrun 使用 depth=24 和 8×H100，大约 2 小时即可达到 GPT-2 水平。您的 RTX 4070（12GB VRAM）只能容纳较小的模型。RTX 4070 上的 d12 模型花费了 65 小时，仍未达到 GPT-2 水平。

想尝试用 SFT 微调 d12 检查点，还是训练一个新模型？

返回捐助