NVIDIA GPU状态概览 | AI生成和翻译
概览
这是 nvidia-smi 命令的输出结果,该工具用于监控和管理 Linux 系统(根据路径判断,此处应为 Ubuntu 或类似发行版)上的 NVIDIA GPU。它提供了 GPU 状态的快照,包括硬件详情、利用率、功耗、内存使用情况以及活跃进程。该命令于 2025 年 10 月 7 日凌晨 3:16:58 在 nanoGPT 项目(一个基于 PyTorch 的热门 GPT 训练代码库)相关目录中执行。
输出内容分为三个主要部分:包含软件版本的头部信息、概括 GPU 当前状态的表格,以及使用 GPU 的进程表格。下面将逐步解析。
头部信息
2025年10月7日 周二 03:16:58
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.247.12 驱动程序版本: 535.247.12 CUDA 版本: 12.2 |
- 时间戳:命令执行时间。
- NVIDIA-SMI 版本:535.247.12(工具自身版本)。
- 驱动程序版本:535.247.12(系统安装的 NVIDIA 内核驱动程序版本)。
- CUDA 版本:12.2(用于 GPU 加速计算的 CUDA 工具包版本,如 PyTorch 或 TensorFlow)。
该配置兼容现代机器学习工作负载,例如在 nanoGPT 中训练模型。
GPU 状态表格
此表格显示了检测到的单个 GPU(索引 0)的详细信息。表格列包含硬件 ID、显示状态、错误校正以及实时指标。
|-----------------------------------------+----------------------+----------------------+
| GPU 名称 Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| 风扇 温度 性能 功耗:使用/上限| 内存-使用率 | GPU-利用率 计算模式 |
| | | MIG 模式 |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 4070 开启 | 00000000:01:00.0 开启 | 无 |
| 32% 47℃ P2 74W / 215W | 3144MiB / 12282MiB | 2% 默认 |
| | | 无 |
- GPU 0:第一个(且唯一)GPU。
- 名称:NVIDIA GeForce RTX 4070(消费级 GPU,配备 12GB GDDR6X 显存,适用于游戏和机器学习训练)。
- Persistence-M:”开启”表示即使没有应用程序使用,GPU 驱动程序仍保持加载状态(减少应用程序启动延迟)。
- Bus-Id:00000000:01:00.0(PCIe 插槽地址;用于多 GPU 设置故障排除)。
- Disp.A:”开启”表示 GPU 正在驱动显示器(例如您的显示器)。
- Volatile Uncorr. ECC:无(内存错误校正码;消费级 GPU 如 4070 不支持/未启用)。
- 风扇:32% 转速(冷却风扇中等速度运行)。
- 温度:47℃(当前温度;安全范围,RTX 4070 最高可承受约 90℃)。
- 性能:P2(性能状态;P0 为最大加速,P8 为空闲——P2 为平衡的中等状态)。
- 功耗:使用/上限:74W 当前功耗,上限为 215W(低功耗,表示轻负载)。
- 内存-使用率:已使用 3144MiB,总计 12282MiB(约 3GB/12GB;约 26% 占用——有空间运行更大模型)。
- GPU-利用率:2%(核心利用率;非常低,表示 GPU 基本处于空闲状态)。
- 计算模式:默认(计算模式;允许多个进程共享 GPU)。
- MIG 模式:无(多实例 GPU 分区;此消费级显卡不可用)。
总体而言,您的 GPU 状态健康且负载较轻——可能仅处理桌面图形和一些后台任务。
进程表格
此表格列出了当前使用 GPU 内存或计算资源的所有进程。列包括 GPU 索引、进程 ID(此处 GI/CI 为无,因为它们用于高级多实例跟踪)、PID(进程 ID)、类型(G=图形,如渲染;C=计算,如机器学习训练)、进程名称和内存使用情况。
| 进程: |
| GPU GI CI 进程 ID 类型 进程名称 GPU 内存使用量 |
| ID ID |
|=======================================================================================|
| 0 无 无 2927 G /usr/lib/xorg/Xorg 814MiB |
| 0 无 无 3072 G /usr/bin/gnome-shell 158MiB |
| 0 无 无 24177 G firefox 235MiB |
| 0 无 无 213795 G /proc/self/exe 112MiB |
| 0 无 无 213796 G ...erProcess --variations-seed-version 96MiB |
| 0 无 无 232689 C python3.10 1708MiB |
- 2927 G /usr/lib/xorg/Xorg:814MiB——X11 显示服务器(处理图形桌面;因渲染占用较多资源)。
- 3072 G /usr/bin/gnome-shell:158MiB——GNOME 桌面环境(UI 效果和窗口管理)。
- 24177 G firefox:235MiB——Firefox 浏览器(用于网页渲染/视频的 GPU 加速)。
- 213795 G /proc/self/exe:112MiB——可能为浏览器渲染进程(自引用路径常见于沙盒化应用如 Chrome)。
- 213796 G …erProcess –variations-seed-version:96MiB——可能为 Chrome 渲染子进程(省略号隐藏完整路径;标志与功能实验相关)。
- 232689 C python3.10:1708MiB——处于计算模式的 Python 3.10 进程(这是主要占用者——可能是您的 nanoGPT 训练脚本或使用 PyTorch/CUDA 的 Jupyter 会话;占用约 1.7GB 显存)。
GPU 内存使用总量约 3.1GB,与之前的使用统计一致。Python 进程是此处的主要计算负载。
实用提示
- 如果在 nanoGPT 中训练模型,请关注高 GPU 利用率(>80%)和内存接近 12GB 的情况——若出现内存不足错误,可考虑调整批次大小。
- 运行
nvidia-smi -l 1可每秒实时更新状态。 - 终止进程命令:
kill <进程 ID>(例如若 Python 无响应时)。
此快照显示系统稳定、负载较低,已准备好执行 GPU 任务!