MI300X GPU机器学习实验总结 | AI生成和翻译

Home 2026.06

以下是这台笔记本电脑/机器上发生情况的完整报告:

============================================================ 系统概览 ============================================================

主机名: snapshots-gpu-mi300x1-192gb-devcloud-atl1 操作系统: Ubuntu 24.04.4 LTS (Noble Numbat) 内核: 6.8.0-117-generic 运行时间: 1小时12分钟(今日6月9日15:46启动) CPU: Intel Xeon Platinum 8568Y+(20核 @ 2.0GHz,QEMU虚拟机) 内存: 总计235 GB,已使用约5.9 GB 磁盘: 总计697 GB,已使用128 GB(19%) GPU: AMD MI300X(192 GB显存,gfx942),通过ROCm 7.2.0驱动 当前空闲:44°C,161W,GPU使用率0% / 显存使用率0%

============================================================ 活动时间线 ============================================================

这是一台云开发服务器(DigitalOcean GPU Droplet),用于 机器学习/人工智能实验。已完成以下工作:

  1. LLAMA.CPP 构建 + QWEN 推理(5月20日 - 6月1日)
    • 克隆并构建了支持ROCm/HIP的llama.cpp,适配MI300X GPU
    • 下载了Qwen3.5-122B-A10B(IQ1_M量化版,约122B参数MoE模型)
    • 在8080端口部署了llama-server,提供该模型服务
    • 相关文件:build_llamacpp.sh, run_server.sh
    • 磁盘占用385 MB
  2. NANOGPT 训练 — 760M模型(6月1日 - 6月2日)
    • 克隆了Karpathy的nanoGPT仓库
    • 在FineWeb数据集上训练了GPT-2 760M模型(24层,24头,1536嵌入维度)
    • 训练至约29K步,在MI300X上达到MFU 108-113%
    • 第29K步验证损失:约3.27
    • 保存检查点:out-fineweb-760m/ckpt.pt(8.5 GB)
    • 在第76K步运行推理质量审计:
      • 语法正确,段落连贯
      • 事实错误(虚构会议/日期)
      • 约100个token后出现重复(仅完成17%训练)
    • 磁盘上存储36 GB训练数据/日志
  3. ZZ 项目(6月1日)
    • 包含脚本、数据集和日志的训练流水线
    • 包含FineWeb、OpenWeb等训练日志
    • 磁盘占用40 GB
    • 推理样本:故事、代码、事实、AI历史
  4. NANOCHAT 克隆(6月9日 - 今日)
    • 刚刚克隆了Karpathy的nanochat(nanoGPT的继任者)
    • 包含mlflow.db、运行脚本、任务文件
    • 似乎是新克隆,尚未大量使用
    • 磁盘占用5.8 MB
  5. HERMES AGENT 设置(6月9日 - 今日)
    • 通过curl安装脚本安装了Hermes Agent
    • 运行了hermes model, hermes –yolo
    • 当前会话:探索系统

============================================================ 登录历史 ============================================================

============================================================ 磁盘使用明细 ============================================================

/root/zz/ 40 GB (训练数据 + 日志) /root/nanoGPT/ 36 GB (主要是检查点:8.5 GB) /root/llama.cpp/ 385 MB (源代码 + 服务器二进制文件) /root/nanochat/ 5.8 MB (新克隆) Pip缓存: 约若干(缓存包)

============================================================ 总结 ============================================================

这是一台GPU研究/开发机器,用于:

GPU当前空闲且可用。最近最大的活动是 6月1日至2日的nanoGPT 760M训练运行,该运行以108-113%的MFU 重度使用了MI300X。


Back Donate