124M模型冒烟测试通过

124M模型冒烟测试通过 | AI生成和翻译

首页 2026.06

烟雾测试顺利通过。结果如下：

使用 compile=True 后，完整配置应能更快一些。完整运行 = 47,400步 × 约32,768 token/步 ≈ 15.5亿 token ≈ 1个 epoch。

命令如下：

cd /mnt/data/nanoGPT && python3 train.py config/train_sec_edgar_124m.py

已创建的配置：

我还修改了 train.py，当找不到 edufineweb_*.npy 时，会回退到 train_*.npy / val_*.npy 的 glob 模式，以便它能识别你 sec-edgar 分片的命名方式。

返回捐助