当前位置: 首页 > news >正文

GPU的使用寿命可能只有1~3年

在当今高度依赖人工智能(AI)和高性能计算(HPC)的时代,数据中心的图形处理单元(GPU)成为了关键的计算资源。然而,根据Tech Fund援引的一位未具名的Alphabet高级专家的说法,这些昂贵的GPU在数据中心的使用寿命可能只有短短的一到三年时间。

图片

在现代数据中心里,GPU主要负责AI训练和推理等计算密集型任务。由于这些任务要求极高,GPU经常处于高负荷状态,这导致其磨损速度比其他硬件组件更快。尤其是对于云计算服务提供商(CSP)而言,其数据中心中的GPU利用率介于60%至70%之间,这种高利用率会进一步缩短GPU的预期寿命。

根据这位据称来自Alphabet的主要生成式AI架构师的说法,当GPU处于上述的高利用率状态时,其预期寿命一般在一年到两年之间,最长不超过三年。这主要是因为现代数据中心GPU为了支持AI和HPC应用,通常需要功耗达到几百瓦,这对于微小的硅片来说是一种实质性的压力。

据这位发言者所说,延长GPU寿命的一种方法是降低其利用率。然而,这样做会减缓GPU的折旧速度,进而影响资本回报速度,这显然不是商业上的最优选择。因此,大多数云计算服务提供商更倾向于让其GPU维持在一个较高的利用率水平上运作。

今年早些时候,Meta公司发布的一项研究表明,他们使用由16,384块Nvidia H100 80GB GPU组成的集群来训练Llama 3 405B模型。尽管集群的模型浮点运算利用率(MFU)为约38%(使用BF16精度),但在54天的预训练快照期间,总共发生了419次未预见的中断事件,其中有148次(占比30.1%)是由各种GPU故障(包括NVLink故障)引起的,另外72次(17.2%)则是由HBM3内存故障造成的。

图片

Meta的研究结果显示,H100 GPU在故障率方面似乎表现不错。如果GPU及其内存的故障率与Meta的统计相符,那么这些处理器的年度故障率约为9%,而在三年内的年度故障率则大约为27%。不过,考虑到GPU在服役一年后可能会出现更频繁的故障,这一估计可能过于乐观。

随着AI和HPC应用的不断发展,数据中心对GPU的需求只会越来越大。然而,GPU的短寿命周期给数据中心的运维带来了挑战。未来,寻找有效的方法来管理和延长GPU的使用寿命,以及开发更加耐用的GPU架构,将是业界面临的重要课题。与此同时,数据中心运营商也需要重新评估其硬件更新策略,以应对不断变化的技术需求和日益增长的计算负载。


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • PCIe SSD在温变环境的稳健性技术剖析

  • 2024 NAND领域的机遇与挑战

  • SSD在低地球轨道卫星应用中的挑战

  • CXL内存技术:有效提高GPU利用率

  • 这可能是最清晰的AI存储数据流动图解

  • DWPD指标:为何不再适用于大容量SSD?

  • 突破内存墙:DRAM的过去、现在与未来

  • E1.S接口如何解决SSD过热问题?

  • ZNS SSD是不是持久缓存的理想选择?

  • 存储正式迈入超大容量SSD时代!

  • FMS 2024: 带来哪些存储技术亮点?

  • IEEE报告解读:存储技术发展趋势分析

  • 什么?陶瓷也可以用来存储数据了?

  • 都说固态硬盘寿命短,那么谁把使用寿命用完了吗?

  • 内存原生CRAM技术将会颠覆计算存储的未来?

  • 浅析SSD性能与NAND速率的关联

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!


http://www.mrgr.cn/news/59850.html

相关文章:

  • SpringBoot整合API接口做快递智能识别
  • 蓝桥杯普及题
  • Python实现基于WebSocket的stomp协议调试助手工具
  • 软硬链接与动静态库的加载
  • 鹏哥C语言95---第17次作业:指针初阶+结构体
  • 最短路径问题的经典算法——Dijkstra[被证明具有普遍最优性(Universal Optimality)]
  • JavaCV 之均值滤波:图像降噪与模糊的权衡之道
  • Python之Excel自动化处理(三)
  • ReactNative 启动应用(2)
  • Java的访问修饰符
  • 快速入门HTML
  • dd命令简介
  • FreeRTOS 6:任务创建函数xTaskCreate分析
  • 用canvas对图片压缩
  • 零基础Java第十一期:类和对象(二)
  • 面试题:ABCD四个线程,A线程最后执行
  • 「C/C++」C++标准库之#include<fstream>文件流
  • Grid View 网格视图
  • 一文带你搞懂RabbitMQ 如何保证消息不丢失
  • 为什么STM32在构建工程时候,没有用到core_cm3.c 只用到了core_cm3.h?