HW | AMD GPU上 “nvidia-smi -lms” 的等价指令——MI300X实时查看GPU使用率
文章目录
- .
- 实验背景
- .
- nvidia-smi -lms
- .
- rocm-smi 等价指令
- .
- 结语
- .
.
实验背景
最近在使用AMD MI300X GPU进行实验,MI300X是目前AMD最先进的几款数据中心GPU之一。该GPU的软件指令和NVIDIA的不同,主要因为底层的驱动命名不同(在我理解确实是这样一个比较简单的原因 > - <,深究的话就是AMD自研的硬件+软件系统也创建了专属的特定IP)。
不同于NVIDIA的CUDA生态,AMD采用HIP+ROCm硬件到软件编程架构,所以大部分常用的指令两者会有对应关系。这篇博客就以最常用的场景之一——实时查看GPU的使用情况——而展开。
查看GPU的使用情况的常见场景:
- 部署模型推理
- 模型训练
- 图形渲染,等。
.
nvidia-smi -lms
在NVIDIA GPU上,我们通常使用nvidia-smi来查看和观察GPU使用率。为了实时观察使用率,我们可以增加参数–lms动态刷新GPU使用率。
具体指令如下:
nvidia-smi -lms
.
rocm-smi 等价指令
在AMD GPU上,rocm-smi是对应的等价指令。在实际使用中会发现,目前rocm-smi还不支持实时观察使用率的-lms参数(也许未来会有其他发现再更新)。
结合GPT给出的建议,可以使用watch指令进行实时观测,实现同样的功能。
具体指令如下:
watch -n 1 rocm-smi
指令含义是执行rocm-smi,并刷新显示结果,刷新率为1秒/次。
.
结语
目前GPU生态蓬勃发展,期待各种改进。以上。