两阶段机器学习工作流

两阶段机器学习工作流 | AI生成和翻译

首页 2026.05

问题：训练 nanoGPT 时，推荐的流程是先通过 Claude Code 进行一次烟雾测试，然后在单独的终端中手动运行完整的训练命令（因为训练需要很长时间）吗？

答案：

是的——这正是正确的流程，也是机器学习训练中公认的最佳实践。以下解释其合理性及具体操作方式：

为什么这种两阶段流程是正确的

阶段一：通过 Claude Code 进行烟雾测试（快速检查）

烟雾测试是一种最小化、快速的测试，用于在投入长时间训练任务之前确认你的设置不会出错。通过 Claude Code，你可以要求它设置、配置并启动一个非常短的运行（少量迭代），从而能够：

验证环境（依赖项如 torch、tiktoken、numpy 是否已安装）
确认数据预处理脚本正常工作（prepare.py 已运行并生成 train.bin / val.bin）
检查配置覆写是否有效（模型大小、批大小等没有拼写错误）
确保正确检测到 GPU/MPS/CPU
使用较小的 batch_size 或 block_size 尽早捕捉 OOM（内存不足）错误

nanoGPT 的典型烟雾测试可能如下所示：

# 烟雾测试：仅迭代 10 次以确认设置正常
python train.py config/train_shakespeare_char.py \
  --max_iters=10 \
  --eval_interval=5 \
  --device=cuda

Claude Code 会交互式地运行此命令，读取输出，并能够内联调试任何错误——这正是 Claude Code 擅长的工作（短周期、迭代式、具身化操作）。

阶段二：在单独的终端中运行完整训练（长时间运行的任务）

烟雾测试通过后，你不应让 Claude Code 运行真正的训练，因为：

完整的 nanoGPT GPT-2（124M）训练可能需要数小时到数天（例如，单张 A100 上 4 天，或 8×H100 上约 3 分钟（加速运行））
即使是莎士比亚字符模型，在 GPU 上也需要5 分钟，在 CPU 上则需要 8 小时以上
Claude Code 会话不适用于长时间阻塞进程——它们可能超时或丢失上下文
你希望训练进程独立运行，而不是与 AI 会话绑定

因此，你需要打开一个单独的终端并手动运行：

# 对于莎士比亚（小型，CPU 友好，GPU 上约 5 分钟）：
python train.py config/train_shakespeare_char.py

# 对于 GPT-2 完整复现（需要 8×A100）：
torchrun --standalone --nproc_per_node=8 train.py config/train_gpt2.py

使用 tmux 或 screen 来保持训练在断开连接时仍然运行：

tmux new -s nanogpt_train
python train.py config/train_shakespeare_char.py
# Ctrl+B, D 分离；tmux attach -t nanogpt_train 重新连接

完整流程总结

步骤	谁来执行	原因
设置环境、准备数据	Claude Code	具身化操作，处理错误
烟雾测试（10–50 次迭代）	Claude Code	快速验证，发现错误
完整训练运行	你，在单独的终端中	长时间运行，需要持久性
监控日志 / 调试错误	Claude Code（如有需要）	可以读取日志文件并给出建议
采样 / 生成文本	两者均可	再次成为短任务

专业提示：检查点恢复

nanoGPT 在训练过程中会自动保存检查点（out_dir 中的 ckpt.pt）。如果训练崩溃，你可以恢复：

python train.py config/train_shakespeare_char.py --init_from=resume

这使得手动终端方法更加安全——如果出现问题，你无需从头开始。

简而言之：是的，通过 Claude Code 进行烟雾测试 ✅，自己在单独的终端中运行完整训练 ✅——这是正确且专业的模式。

参考资料：

返回捐助