纳米聊天训练进展更新 | AI生成和翻译
状态如下:
Tmux 会话: 只有 0 和 14 存在。会话 7 和 12 已消失。
Nanochat 训练(tmux 14)—— 表现良好:
- 步骤:144,832 / 200,000(72.42%)
- 损失:~2.73-2.76(健康,稳定)
- 吞吐量:~55,700 tok/sec,dt ~1,176ms/step
- 总耗时:2,840 分钟(约 47.3 小时)
- 预计剩余时间:~1,082 分钟 ≈ 18 小时
- 学习率:0.45
- Epoch 1,pq:94,rg:28
所以大约还剩 18 小时 —— 应在明天下午/晚上某个时候完成。训练看起来健康 —— 损失稳定在 2.7-2.8 范围内,没有尖峰或 NaN。