互连芯片浪潮席卷AI服务器:突破瓶颈,再创辉煌

news/2024/5/17 12:42:35

 

改变AI服务器:互连芯片技术创新和突破

   

b606f2efe9199051363a02e7f1d0c846.jpeg


AI服务器崛起,引领未来创新
根据TrendForce数据,AI服务器出货量达130,000台,占服务器总出货量的1%。主要制造商推出生成式AI产品,推动订单激增。
ChatGPT等应用的需求持续增长,预计2023-2027年,AI服务器市场将以12.2%的复合年增长率扩张。这一增长势头突显了AI服务器在未来创新中的至关重要性。


DGX H100:开拓AI领域的先驱性进展

DGX H100是英伟达(NVIDIA) DGX系统于2022年发布的最新版本,也是英伟达(NVIDIA) DGX SuperPOD的核心。该系统采用8个H100 GPU和6400亿个晶体管,其AI性能是上一代的6倍,尤其是在新的FP8精度方面表现出色。此外,DGX服务器还可提供900GB/s带宽,彰显了AI能力的显著提升。

DGX H100服务器采用IP网卡,既可作为网卡,又可作为PCIe扩展交换机,符合PCIe 5.0标准。此外服务器还包括CX7,以2张卡的形式提供,每张卡含有4个CX7芯片,并提供2个800G OSFP光模块端口。对于GPU互连(H100),NVSwitch芯片起到关键作用。每个GPU向外扩展18个NVLink,实现每个链路双向带宽达到50GB/s,总共达到900GB/s的双向带宽。这些带宽分布在4个内置的NVSwitch芯片上,每个NVSwitch对应4-5个OSFP光模块。每个OSFP光模块使用8个光通道,传输速率为100Gbps/通道,因此总速率达到800Gbps,实现高速数据传输。126c2aa5b420b6a0f4915f22df7f7966.jpeg

CPU、GPU等组件互连:采用PCIe交换机和重定时芯片进行连接

PCIe交换机技术的演进:克服通道限制

PCIe交换机(也称为PCIe集线器)是一个关键组件,用于通过PCIe通信协议连接PCIe设备。它通过扩展和聚合功能,使多个设备能够连接到1个PCIe端口,可在很大程度上克服PCIe通道数量局限的问题。目前,PCIe交换机广泛应用于传统存储系统,并在各种服务器平台上越来越受欢迎,为系统内的数据传输速率提供显著改善。随着时间的推移,PCIe总线技术的进展意味着PCIe交换机速率的逐渐增加。

最初由英特尔于2001年作为第三代I/O技术以"3GIO"的名义推出,经过PCI-SIG的评估后在2002年更名为"PCI Express"。2003年正式发布的PCIe 1.0成为一个重要的里程碑,支持每通道传输速率为250MB/s,总传输速率为2.5 GT/s。在2022年,PCI-SIG正式发布了PCIe 6.0规范,将总带宽提升至64 GT/s。9dbf60ac644623fc5a7cac7a66c1927d.jpeg

PCIe重定时行业的主导趋势

在AI服务器中,为了确保GPU和CPU连接时的信号质量,至少需要使用一个重定时芯片。一些AI服务器选择使用多个重定时芯片,比如Astera Labs就在其AI加速器配置中集成了4个重定时芯片。4243a6a7394d62c4e12fd5013df9e926.jpeg目前,PCIe重定时市场具有巨大的潜力,有三家领先品牌和许多潜在竞争对手。目前,Parade Technologies、Astera Labs和澜起科技是这个蓬勃发展市场的主要参与者,占据重要的地位。值得注意的是,作为PCIe部署的早期使用者,澜起科技是中国内地唯一能够大规模生产PCIe 4.0重定时的供应商。此外,澜起科技在PCIe 5.0重定时的开发方面也取得了稳步进展。419d2d04729f910b5742c37869cd91d6.jpeg此外,Renesas、TI和微芯科技等芯片制造商也积极参与PCIe重定时产品的开发。根据官网站信息,Renesas提供2款PCIe 3.0重定时产品,分别是89HT0816AP和89HT0832P。TI提供了一款16Gbps 8通道PCIe 4.0重定时产品- DS160PT801。此外,微芯科技在2020年11月推出了XpressConnect系列的重定时芯片,旨在实现PCIe 5.0的32GT/s速率。

GPU之间的互连:NVLink和NVSwitch

全球主要芯片制造商非常重视推广高速接口技术。其中,英伟达(NVIDIA)的NVLink、AMD的Infinity Fabric和英特尔的CXL都做出了重要贡献。NVLink是由英伟达(NVIDIA)开发的高速互连技术。它旨在加速CPU与GPU、GPU与GPU之间的数据传输速率,提升系统性能。

从2016年到2022年,NVLink经历多次升级,已经发展到第四代。2016年,英伟达(NVIDIA)配合Pascal GP100 GPU的发布推出第一代NVLink。NVLink采用了高速信号互连(NVHS)技术,主要用于GPU之间和GPU与CPU之间的信号传输。GPU之间通过差分阻抗电信号以NRZ(不归零)形式进行编码传输。第一代NVLink单链路实现了40GB/s的双向带宽,单个芯片可以支持4个链路,总双向带宽达到160GB/s。00551750f8876e606c6a299a75cfcadb.jpeg

NVLink不同阶段的发展

NVLink技术经历多次迭代,推动了高速互连的创新。2017年,基于Volta架构推出第二代NVLink。它实现每个链路50GB/s的双向带宽,每个芯片支持6个链路,总双向带宽达到300GB/s。2020年,基于Ampere架构的第三代发布,总双向带宽达到600GB/s。在2022年,基于Hopper架构的第四代推出。这一迭代转向使用PAM4调制的电信号,每个链路保持50GB/s的双向带宽,每个芯片支持18个链路,总双向带宽达到900GB/s。

NVSwitch的发展推动实现高性能GPU互连

在2018年,英伟达(NVIDIA)推出NVSwitch的最初版本,为增强带宽、减少延迟和促进服务器内多个GPU之间的通信提供解决方案。第一代NVSwitch采用TSMC的12nm FinFET工艺制造,拥有18个NVLink 2.0接口。通过部署12个NVSwitch,1个服务器可以容纳和优化16个V100 GPU之间的互连速率。6352a1b84af1fbbe5f26debc407e0bc1.jpeg目前,NVSwitch已经发展到第三代,采用TSMC的4N工艺制造。每个NVSwitch芯片配备了64个NVLink 4.0端口,使GPU之间的通信速率达到了900GB/s。通过NVLink Switch互连的GPU可以集体作为一个具有深度学习能力的高性能加速器运行。

总结

接口互连技术(PCIe芯片、重定时芯片和NVSwitch)增强了CPU和GPU之间的互联能力,提升了人工智能服务器的动态性。这些相互作用促进了高性能计算的发展,为人工智能应用提供了强大的基础。

e2ac1cc73cfa552a64b294b46f1f184a.jpeg 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-


http://www.mrgr.cn/p/54166441

相关文章

【MySQL】20. 使用C语言链接

mysql connect mysql的基础,我们之前已经学过,后面我们只关心使用 要使用C语言连接mysql,需要使用mysql官网提供的库,大家可以去官网下载 我们使用C接口库来进行连接 要正确使用,我们需要做一些准备工作: …

【springCloud】版本学习

Spring Cloud介绍 官网地址:https://spring.io/projects/spring-cloud Spring Cloud 是一个基于 Spring Boot 的微服务架构解决方案,它提供了一系列工具和模式来帮助开发者构建分布式系统。Spring Cloud 的组件和模式包括配置管理、服务发现、断路器、…

P8968

太牛了。太 nb 了。 不会博弈,不会推导,盲猜全部是同种电荷,此时神明的决策固定且易于刻画,对着样例模拟一下发现对了,写一发过了 easy ver,于是不管正确性直接来想 hard ver。 考虑向上跳的过程大致操作为 \(x\gets x+\min(x,a_i)\),直觉上不存在好的维护方法。 注意到…

ELK日志收集和备份填坑实战 (滞后8个小时等时区问题)

ES的备份:ES快照备份 根据时间,每天零点在Linux机器crontab来调用api接口实现快照备份,通过快照备份,可以定准恢复到某一天的日志。 现象:(坑:但是恢复某一天日志,发现会少8小时的日…

初学python记录:力扣2007. 从双倍数组中还原原数组

题目: 一个整数数组 original 可以转变成一个 双倍 数组 changed ,转变方式为将 original 中每个元素 值乘以 2 加入数组中,然后将所有元素 随机打乱 。 给你一个数组 changed ,如果 change 是 双倍 数组,那么请你返…

shell系统函数和流程控制

系统函数: 1、简单示例:点击查看代码 #!/bin/bash filename="$1"_log_$(datename +%S) echo $filenamebasename:基本语法: basename [string/pathname] [suffix] (功能描述:basename命令会删掉所有的前缀包括最后一个(/)字符,然后将左右字符显示出来。 basename…

RocketMQ并发消息消费重试DEMO

无序消息的重试只针对集群消费模式生效;广播消费模式不提供失败重试特性 Producer 发了100个对象消息 public class AddProducer {public static void main(String[] args) throws Exception {DefaultMQProducer producer new DefaultMQProducer("a-group&q…

春秋云境:CVE-2022-32991[漏洞复现]

从CVE官网查询该漏洞相关信息 该漏洞是由于welcome.php中的eid参数包含了SQL注入漏洞 则我们的目标就在于寻找welcome.php地址以及相关的可注入eid参数 开启靶机 先在页面正常注册、登录一个账号。密码随便填 进入了home目录,这里有三个话题可以选择开启 随便选…

模拟电路学习笔记——晶体管电流放大作用

基本共射放大电路△u1为输入电压信号,接入基极——发射极回路,称为输入回路;放大后的信号在集电极——发射极回路,称为输出回路;因发射极是两个回路的公共端,故称该电路为共射放大电路晶体管工作在放大状态的外部条件:发射结正向偏置,集电结反向偏置输入回路中基极电源…

MATLAB偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据

全文链接:http://tecdat.cn/?p=2655 最近我们被客户要求撰写关于偏最小二乘回归(PLSR)和主成分回归(PCR)的研究报告,包括一些图形和统计输出。 此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性 当存在大量预测变量时…

UE5 C++ 射线检测

一.声明四个变量 FVector StartLocation;FVector ForwardVector;FVector EndLocation;FHitResult HitResult;二.起点从摄像机,重点为摄像机前9999m。射线检测 使用LineTraceSingleByChannel 射线直线通道检测,所以 void AMyCharacter::Tick(float Delt…

matlab使用经验模式分解emd 对信号进行去噪

原文链接 : http://tecdat.cn/?p=2567 原文出处:拓端数据部落公众号对于这个例子,考虑由具有明显频率变化的正弦波组成的非平稳连续信号。手提钻的振动或烟花声是非平稳连续信号的例子。 以采样频率加载非平稳信号数据fs,并可视化混合正弦信号。 htmlload(sinusoidalSigna…

Spring Boot 学习(3)——Spring Initializr 创建项目问题解决

产生问题的原因,各种的版本都较老,所以导致出现问题。目前暂未打到合适的教程,按老教程学起来先。 小白瞎学,大神勿喷! 再次强调环境:maven 3.3.9、jdk 1.8、idea 2017、Spring 4.3.13、Spring Boot 1.5.…

Linux学习之路 -- PCB介绍 -- 进程优先级

1、什么是优先级? 进程需要某一种资源,而系统要通过特定的方式来决定谁先获得这些资源,而系统的做法就是给不同的进程安排不同的优先级。让优先级高的进程先享有一些资源。 2、为什么要有优先级 因为资源的缺乏,所以系统的才会…

linux进程与计划(2)

五大性能性能 命令内存使用率 free,topCPU使用率 top,ps,w硬盘使用率 df硬盘读写性能 dd,iostat网络带宽 iftopps -ef 命令输出信息 如果不想看到所有的进程,只想查看一下当前登录产生了哪些进程,那只需使用 "ps -l" 命令就足够了 CPU 在运算数据时,不是把一个集成…

软件产品许可证书 Licence 全流程研发(使用非对称加密技术,既安全又简单)

本篇博客对应的代码地址: Gitee 仓库地址:https://gitee.com/biandanLoveyou/licence 1、背景介绍 公司是做软件 SAAS 服务的,一般来说软件部署有以下几种常见的模式: 1、自己研发和部署到自己的云服务器,然后有偿提供…

ts中的dom元素和event事件类型声明

1, HTMLElement 和 Element<div id="divClick"></div>const docu = document.getElementById(divClick);const docu1 = document.querySelector(#divClick);把鼠标分别放在docu和docu1上:HTMLElement HTMLElement 是 HTML 文档中某个元素的具体类型,该…

debian安装和基本使用

debian安装和基本使用 文章目录 debian安装和基本使用1. 为什么选择debian2. 如何下载Debian2.1 小型安装镜像2.2 完整安装镜像 3. Debian操作系统安装3.1 创建Debian虚拟机3.2 安装操作系统 4. Debian系统的初始设置4.1 桌面环境的配置4.2 配置网络4.3 生效网络配置4.4 配置de…

大模型日报|今日必读的6篇大模型论文

大家好&#xff0c;今日必读的大模型论文来啦&#xff01; 1.Google DeepMind 新研究&#xff1a;多样本上下文学习 目前&#xff0c;大型语言模型&#xff08;LLMs&#xff09;最擅长的是 “少样本上下文学习”&#xff08;ICL&#xff09;—— 即在推理时从上下文中提供的少…