GPU回收恢复选项 | AI生成和翻译
这是 RunPod 错误,不是代码中需要修复的问题。当已停止的 Pod 的 GPU 被其他用户回收时,你的精确 GPU 配置就消失了。你的选项:
1. 迁移到新的 GPU(保留你的数据)
对话框中通常会提供“Migrate”或“Deploy on new GPUs”按钮。这可以保留你的网络卷 / 持久化磁盘,但分配不同的物理 GPU。如果有此选项,请点击它。
2. 部署一个新的 Pod 并挂载你的卷
如果迁移功能未提供或失败(你的 GPU 类型在该数据中心已无库存):
- 记下你的 Pod 的区域和网络卷 ID
- 启动一个新的 Pod,挂载同一个网络卷,选择相同或等效的 GPU
- 如果你的数据位于网络卷上,
/workspace中的数据会保留——仅存放在容器磁盘上的数据会丢失
3. 切换 GPU 类型或数据中心
如果你的原始 GPU(例如 MI300X / 特定的 A100 配置)在该区域不可用,请选择不同的数据中心或 GPU 层级。使用筛选器查找可用资源。
关键要检查的是: 你的工作是在网络卷上还是仅在容器磁盘上?
- 网络卷 → 安全,只需重新挂载
- 仅容器磁盘 → 迁移后丢失,这是常见的陷阱
未来的预防措施:
- 始终将代码/检查点放在挂载于
/workspace的网络卷上 - 训练时,频繁将检查点保存到卷中(每 N 步执行
torch.save) - 考虑按需实例 vs. 竞价实例——竞价 Pod 被回收的几率更高
鉴于你的配置,这也提示你在进行较重训练时可以考虑 AMD Dev Cloud MI300X——它的分配比 RunPod 竞价容量更稳定。
你当时使用的是哪种 GPU 类型和存储配置?我可以给出精确的恢复步骤。