【linux】记录 n 次 疑似显卡缺电导致的服务器故障
组了一台服务器,4卡3090。京东买的,明显是二手卡,不排除是矿。
平常推LLM没问题,用着很正常。但是发现跑特定的任务的时候很容易其中一张卡挂掉。
故障现象
跑特定任务之后,
以下现象出现2次
nvitop
显示idx=2
的卡显示为N/A
- 退出
nvitop
之后重新进入,报错,显示段错误(核心已转储)
nvidia-smi
也报错,无法查看
以下现象出现1次
- 只有
cd
echo
等少数几个命令可以使用,其他命令完全无法使用,连ls
也用不了。显示系统盘固态硬盘掉盘。
故障分析
查询到的解决方案主要是看这两个博客
3090缺电/过热
显卡故障,导致torch报错
第一个链接显示有可能是过热或者缺电。过热不可能,因为温度长期50度。散热条件良好。风扇都拉满了。那就只能是缺电。电源是长城的 2600W 黑匣子。按理说不应该超过这个功率。因为 350W * 4 = 1400W
再加 CPU 也绰绰有余。但是又考虑到有可能是瞬时功率过大。有的博客说 3090 峰值功耗可以达到 950W 想到这个特定的任务上,SM%的占用确实是表现为在0~100%之间剧烈跳动,因此很有可能瞬时功耗一直在 约30W-950W之间 剧烈跳动。给电源造成巨大压力,从而功率无法跟上导致显卡/固态硬盘缺电挂掉
恢复
对于 ssd 掉盘
先尝试进行关机,然后重启。发现无法进入系统。于是拿出linux
启动盘,插usb进入BIOS引导启动。sudo apt install smartmontools
然后看 /dev/nvme0n1
是否有问题。发现通过自建,硬盘没坏,再挂载硬盘,ls -R
查看里面内容,似乎也没问题。所以似乎只是单纯掉盘。后来看系统日志有报告说
好吧好像是单纯显卡坏了
先用这个把这个显卡总线永久禁用了
ACTION=="add", SUBSYSTEM=="pci", ATTR{vendor}=="0x10de", ATTR{device}=="0x2204", ATTR{power/control}="auto", ATTR{remove}="1"