MI300X GPU机器学习实验总结

MI300X GPU机器学习实验总结 | AI生成和翻译

首页 2026.06

以下是这台笔记本电脑/机器上发生情况的完整报告：

============================================================ 系统概览 ============================================================

主机名： snapshots-gpu-mi300x1-192gb-devcloud-atl1 操作系统： Ubuntu 24.04.4 LTS (Noble Numbat) 内核： 6.8.0-117-generic 运行时间： 1小时12分钟（今日6月9日15:46启动） CPU： Intel Xeon Platinum 8568Y+（20核 @ 2.0GHz，QEMU虚拟机）内存：总计235 GB，已使用约5.9 GB 磁盘：总计697 GB，已使用128 GB（19%） GPU： AMD MI300X（192 GB显存，gfx942），通过ROCm 7.2.0驱动当前空闲：44°C，161W，GPU使用率0% / 显存使用率0%

============================================================ 活动时间线 ============================================================

这是一台云开发服务器（DigitalOcean GPU Droplet），用于机器学习/人工智能实验。已完成以下工作：

LLAMA.CPP 构建 + QWEN 推理（5月20日 - 6月1日）
- 克隆并构建了支持ROCm/HIP的llama.cpp，适配MI300X GPU
- 下载了Qwen3.5-122B-A10B（IQ1_M量化版，约122B参数MoE模型）
- 在8080端口部署了llama-server，提供该模型服务
- 相关文件：build_llamacpp.sh, run_server.sh
- 磁盘占用385 MB
NANOGPT 训练 — 760M模型（6月1日 - 6月2日）
- 克隆了Karpathy的nanoGPT仓库
- 在FineWeb数据集上训练了GPT-2 760M模型（24层，24头，1536嵌入维度）
- 训练至约29K步，在MI300X上达到MFU 108-113%
- 第29K步验证损失：约3.27
- 保存检查点：out-fineweb-760m/ckpt.pt（8.5 GB）
- 在第76K步运行推理质量审计：
  - 语法正确，段落连贯
  - 事实错误（虚构会议/日期）
  - 约100个token后出现重复（仅完成17%训练）
- 磁盘上存储36 GB训练数据/日志
ZZ 项目（6月1日）
- 包含脚本、数据集和日志的训练流水线
- 包含FineWeb、OpenWeb等训练日志
- 磁盘占用40 GB
- 推理样本：故事、代码、事实、AI历史
NANOCHAT 克隆（6月9日 - 今日）
- 刚刚克隆了Karpathy的nanochat（nanoGPT的继任者）
- 包含mlflow.db、运行脚本、任务文件
- 似乎是新克隆，尚未大量使用
- 磁盘占用5.8 MB
HERMES AGENT 设置（6月9日 - 今日）
- 通过curl安装脚本安装了Hermes Agent
- 运行了hermes model, hermes –yolo
- 当前会话：探索系统

============================================================ 登录历史 ============================================================

今日（6月9日）：从69.63.219.52登录，系统于15:46重启
6月1日：长时间会话（约8小时以上），多个终端，大量GPU工作
5月20日：短会话（约1小时），llama.cpp设置
首次启动：2026年3月16日

============================================================ 磁盘使用明细 ============================================================

/root/zz/ 40 GB （训练数据 + 日志） /root/nanoGPT/ 36 GB （主要是检查点：8.5 GB） /root/llama.cpp/ 385 MB （源代码 + 服务器二进制文件） /root/nanochat/ 5.8 MB （新克隆） Pip缓存：约若干（缓存包）

============================================================ 总结 ============================================================

这是一台GPU研究/开发机器，用于：

本地运行大型语言模型（通过llama.cpp运行Qwen 122B）
从头训练GPT-2规模模型（在MI300X上训练nanoGPT 760M）
实验Karpathy的LLM训练框架
现在也运行Hermes Agent进行AI辅助开发

GPU当前空闲且可用。最近最大的活动是 6月1日至2日的nanoGPT 760M训练运行，该运行以108-113%的MFU 重度使用了MI300X。

返回捐助