MI300X GPU机器学习实验总结 | AI生成和翻译
以下是这台笔记本电脑/机器上发生情况的完整报告:
============================================================ 系统概览 ============================================================
主机名: snapshots-gpu-mi300x1-192gb-devcloud-atl1 操作系统: Ubuntu 24.04.4 LTS (Noble Numbat) 内核: 6.8.0-117-generic 运行时间: 1小时12分钟(今日6月9日15:46启动) CPU: Intel Xeon Platinum 8568Y+(20核 @ 2.0GHz,QEMU虚拟机) 内存: 总计235 GB,已使用约5.9 GB 磁盘: 总计697 GB,已使用128 GB(19%) GPU: AMD MI300X(192 GB显存,gfx942),通过ROCm 7.2.0驱动 当前空闲:44°C,161W,GPU使用率0% / 显存使用率0%
============================================================ 活动时间线 ============================================================
这是一台云开发服务器(DigitalOcean GPU Droplet),用于 机器学习/人工智能实验。已完成以下工作:
- LLAMA.CPP 构建 + QWEN 推理(5月20日 - 6月1日)
- 克隆并构建了支持ROCm/HIP的llama.cpp,适配MI300X GPU
- 下载了Qwen3.5-122B-A10B(IQ1_M量化版,约122B参数MoE模型)
- 在8080端口部署了llama-server,提供该模型服务
- 相关文件:build_llamacpp.sh, run_server.sh
- 磁盘占用385 MB
- NANOGPT 训练 — 760M模型(6月1日 - 6月2日)
- 克隆了Karpathy的nanoGPT仓库
- 在FineWeb数据集上训练了GPT-2 760M模型(24层,24头,1536嵌入维度)
- 训练至约29K步,在MI300X上达到MFU 108-113%
- 第29K步验证损失:约3.27
- 保存检查点:out-fineweb-760m/ckpt.pt(8.5 GB)
- 在第76K步运行推理质量审计:
- 语法正确,段落连贯
- 事实错误(虚构会议/日期)
- 约100个token后出现重复(仅完成17%训练)
- 磁盘上存储36 GB训练数据/日志
- ZZ 项目(6月1日)
- 包含脚本、数据集和日志的训练流水线
- 包含FineWeb、OpenWeb等训练日志
- 磁盘占用40 GB
- 推理样本:故事、代码、事实、AI历史
- NANOCHAT 克隆(6月9日 - 今日)
- 刚刚克隆了Karpathy的nanochat(nanoGPT的继任者)
- 包含mlflow.db、运行脚本、任务文件
- 似乎是新克隆,尚未大量使用
- 磁盘占用5.8 MB
- HERMES AGENT 设置(6月9日 - 今日)
- 通过curl安装脚本安装了Hermes Agent
- 运行了hermes model, hermes –yolo
- 当前会话:探索系统
============================================================ 登录历史 ============================================================
- 今日(6月9日):从69.63.219.52登录,系统于15:46重启
- 6月1日:长时间会话(约8小时以上),多个终端,大量GPU工作
- 5月20日:短会话(约1小时),llama.cpp设置
- 首次启动:2026年3月16日
============================================================ 磁盘使用明细 ============================================================
/root/zz/ 40 GB (训练数据 + 日志) /root/nanoGPT/ 36 GB (主要是检查点:8.5 GB) /root/llama.cpp/ 385 MB (源代码 + 服务器二进制文件) /root/nanochat/ 5.8 MB (新克隆) Pip缓存: 约若干(缓存包)
============================================================ 总结 ============================================================
这是一台GPU研究/开发机器,用于:
- 本地运行大型语言模型(通过llama.cpp运行Qwen 122B)
- 从头训练GPT-2规模模型(在MI300X上训练nanoGPT 760M)
- 实验Karpathy的LLM训练框架
- 现在也运行Hermes Agent进行AI辅助开发
GPU当前空闲且可用。最近最大的活动是 6月1日至2日的nanoGPT 760M训练运行,该运行以108-113%的MFU 重度使用了MI300X。