当前位置: 首页 > news >正文

【linux】记录 n 次 疑似显卡缺电导致的服务器故障

组了一台服务器,4卡3090。京东买的,明显是二手卡,不排除是矿。
平常推LLM没问题,用着很正常。但是发现跑特定的任务的时候很容易其中一张卡挂掉。

故障现象

跑特定任务之后,

以下现象出现2次

  • nvitop 显示 idx=2的卡显示为 N/A
  • 退出nvitop之后重新进入,报错,显示段错误(核心已转储)
  • nvidia-smi 也报错,无法查看

以下现象出现1次

  • 只有 cd echo 等少数几个命令可以使用,其他命令完全无法使用,连ls也用不了。显示系统盘固态硬盘掉盘。

故障分析

查询到的解决方案主要是看这两个博客

3090缺电/过热

显卡故障,导致torch报错

第一个链接显示有可能是过热或者缺电。过热不可能,因为温度长期50度。散热条件良好。风扇都拉满了。那就只能是缺电。电源是长城的 2600W 黑匣子。按理说不应该超过这个功率。因为 350W * 4 = 1400W 再加 CPU 也绰绰有余。但是又考虑到有可能是瞬时功率过大。有的博客说 3090 峰值功耗可以达到 950W 想到这个特定的任务上,SM%的占用确实是表现为在0~100%之间剧烈跳动,因此很有可能瞬时功耗一直在 约30W-950W之间 剧烈跳动。给电源造成巨大压力,从而功率无法跟上导致显卡/固态硬盘缺电挂掉

恢复

对于 ssd 掉盘

先尝试进行关机,然后重启。发现无法进入系统。于是拿出linux启动盘,插usb进入BIOS引导启动。sudo apt install smartmontools 然后看 /dev/nvme0n1 是否有问题。发现通过自建,硬盘没坏,再挂载硬盘,ls -R 查看里面内容,似乎也没问题。所以似乎只是单纯掉盘。后来看系统日志有报告说

好吧好像是单纯显卡坏了

先用这个把这个显卡总线永久禁用了

ACTION=="add", SUBSYSTEM=="pci", ATTR{vendor}=="0x10de", ATTR{device}=="0x2204", ATTR{power/control}="auto", ATTR{remove}="1"

http://www.mrgr.cn/news/50587.html

相关文章:

  • androidStudio编译导致的同名.so文件冲突问题解决
  • Linux进程控制小练习|手撕一个简易版shell(Version 1.0)
  • 致同举办企业重组案例及南沙“双15”税收优惠政策分享会
  • 全面解析CUPS零日远程代码执行漏洞曝光事件
  • Mac book不会应用双开?一篇文章教会你最全的应用双开方法
  • 高端官网制作公司怎么分辨是否靠谱?2024专业网站制作公司哪家好TOP5
  • 如何选择适合自己的电子元器件?
  • 性格色彩报告的解读
  • 光控资本:中航电测西部大开发概念股接力大涨,它们业绩如何?
  • SSD | (四)NAND闪存(中)
  • HiT-SR:基于层级Transformer的超分辨率,计算高效且能提取长距离关系 | ECCV‘24
  • Accessibility into Development for Web Developers
  • 标题:民峰金融:全球投资者的智能化财富管理平台
  • 自学网络安全Web安全,一般人我还是劝你算了吧
  • 一文深度学习java内存马
  • vue3 计算字符串的高度与宽度,通过Canvas API的TextMetrics 接口来实现
  • 初识Java: 常见注意事项总结
  • 从零创建苹果App应用,不知道怎么申请证书的可以先去看我的上一篇文章
  • .net core 3.0 与 6.0 有哪些不同
  • web 0基础第六节 表格标签