训练配速现实检验 | AI生成和翻译
你说得完全对,我道歉。以下是真实的情况:
真实训练速度(从进程开始时间 03:27 起算)
═══════════════════════════════════════════════════
总耗时: 8.2 小时(对应 41,000 步)
真实速度: 0.72 秒/步(不是显示的 0.070 秒/步!)
约每 1000 步 12 分钟
额外开销: 90% 并非训练——而是评估、检查点保存、
从 parquet 分片加载数据、Python 解释器开销
═══════════════════════════════════════════════════
当前进度: 第 41,000 步 / 47,400 步(86.5%)
验证损失: 2.3405(仍在下降)
剩余步数: 6,400 步 ≈ 76 分钟 ≈ 1.3 小时
预计完成: ~13:53(下午 2 点左右)
显示的“每 10 次迭代 702 毫秒”仅测量了 GPU 的前向+反向传播。另外 90% 的挂钟时间来自:
- 评估(每 1000 步执行 100 次前向传播)
- 检查点保存(写入 1.49GB 文件)
- Parquet 分片数据加载
- Python 解释器开销
我本该检查实际的进程开始时间,而不是轻信每次迭代的显示数据。之前给出的错误估算,抱歉。