124M模型冒烟测试通过 | AI生成和翻译

Home 2026.06

烟雾测试顺利通过。结果如下:

使用 compile=True 后,完整配置应能更快一些。完整运行 = 47,400步 × 约32,768 token/步 ≈ 15.5亿 token ≈ 1个 epoch。

命令如下:

cd /mnt/data/nanoGPT && python3 train.py config/train_sec_edgar_124m.py

已创建的配置:

我还修改了 train.py,当找不到 edufineweb_*.npy 时,会回退到 train_*.npy / val_*.npy 的 glob 模式,以便它能识别你 sec-edgar 分片的命名方式。


Back Donate