当前位置：首页 > news >正文

NUMA架构介绍

news 2026/2/19 4:05:55

NUMA 架构详解

NUMA（Non-Uniform Memory Access，非统一内存访问） 是一种多处理器系统的内存设计架构，旨在解决多处理器系统中内存访问延迟不一致的问题。与传统的 UMA（Uniform Memory Access，统一内存访问）架构不同，NUMA 架构中每个处理器访问不同内存区域的速度可能不同。以下是 NUMA 架构的详细介绍，包括架构细节、CPU 和内存的组合方式、缓存层次、涉及的硬件及其作用，以及 NUMA 架构的优势和原因。

1. NUMA 架构的基本概念

NUMA 节点（NUMA Node）：
- 一个 NUMA 节点通常由一个或多个 CPU 核心（Processor Cores）和与之直接连接的本地内存（Local Memory）组成。
- 每个 NUMA 节点可以独立运行，拥有自己的内存控制器和内存通道。
- 多个 NUMA 节点通过高速互联网络（如 Intel 的 QPI 或 AMD 的 Infinity Fabric）连接。
本地内存（Local Memory）：
- 每个 NUMA 节点的内存是其本地内存，访问速度最快，延迟最低。
远程内存（Remote Memory）：
- 当一个 NUMA 节点访问另一个 NUMA 节点的内存时，需要通过互联网络，访问速度较慢，延迟较高。
内存访问延迟的不一致性：
- 在 NUMA 架构中，内存访问延迟取决于内存的位置。本地内存访问速度快，远程内存访问速度慢，因此称为“非统一内存访问”。

2. NUMA 架构的细节

（1）CPU 和内存的组合方式

多处理器系统：
- NUMA 架构通常用于多处理器系统，每个处理器（或处理器组）与一部分内存直接相连。
- 例如，一个系统可能有 2 个 NUMA 节点，每个节点包含 16 个 CPU 核心和 64GB 本地内存，总内存为 128GB。
内存控制器：
- 每个 NUMA 节点有自己的内存控制器，负责管理本地内存的访问。
- 内存控制器直接连接到 CPU 和本地内存，减少了访问延迟。
互联网络：
- NUMA 节点之间通过高速互联网络（如 Intel 的 QPI、AMD 的 Infinity Fabric 或 PCIe）连接。
- 当一个 NUMA 节点需要访问另一个节点的内存时，数据通过互联网络传输。

（2）缓存层次（Cache Hierarchy）

L1 缓存：
- 每个 CPU 核心有自己的 L1 缓存，分为指令缓存（L1-I）和数据缓存（L1-D）。
- L1 缓存速度最快，容量最小，通常为几十 KB。
L2 缓存：
- 每个 CPU 核心或一组核心共享 L2 缓存。
- L2 缓存速度比 L1 缓存稍慢，容量较大，通常为几百 KB 到几 MB。
L3 缓存：
- 每个 NUMA 节点内的所有 CPU 核心共享 L3 缓存。
- L3 缓存速度比 L2 缓存慢，容量最大，通常为几十 MB。
- L3 缓存在 NUMA 架构中起到重要作用，可以减少对内存的访问次数，尤其是远程内存访问。

（3）内存访问路径

本地内存访问：
- CPU 访问本地内存时，数据直接通过内存控制器读取或写入，延迟低，带宽高。
远程内存访问：
- CPU 访问远程内存时，数据需要通过互联网络传输到目标 NUMA 节点，延迟较高，带宽较低。

（4）NUMA 拓扑结构

NUMA 架构的拓扑结构可以是多种形式，例如：
- 对称 NUMA：所有 NUMA 节点之间的互联延迟相同。
- 非对称 NUMA：某些 NUMA 节点之间的互联延迟可能比其他节点更高。

3. NUMA 架构涉及的硬件及其作用

（1）CPU 核心（Processor Cores）

作用：执行计算任务。
特点：每个核心有自己的 L1 和 L2 缓存，核心之间通过共享的 L3 缓存和内存控制器访问内存。

（2）内存控制器（Memory Controller）

作用：管理 CPU 对内存的访问。
特点：每个 NUMA 节点有自己的内存控制器，负责本地内存的访问。

（3）高速缓存（Cache）

L1 缓存：最快但容量最小，用于存储核心最常用的指令和数据。
L2 缓存：速度较快，容量较大，用于存储核心或核心组的常用数据。
L3 缓存：速度较慢但容量最大，用于存储 NUMA 节点内所有核心的共享数据，减少对内存的访问。

（4）互联网络（Interconnect）

作用：连接多个 NUMA 节点，实现节点之间的数据传输。
特点：高速互联网络（如 Intel 的 QPI、AMD 的 Infinity Fabric）决定了远程内存访问的延迟和带宽。

（5）内存（Memory）

本地内存：每个 NUMA 节点的本地内存，访问速度快。
远程内存：其他 NUMA 节点的内存，访问速度较慢。

4. NUMA 架构的优势

（1）扩展性

NUMA 架构支持更多的处理器和更大的内存容量。
每个 NUMA 节点可以独立扩展，系统可以通过增加 NUMA 节点来提升计算能力和内存容量。

（2）性能优化

数据局部性：
- NUMA 架构通过将任务和数据分配到本地内存，减少了远程内存访问的次数，从而降低了内存访问延迟。
- 操作系统和应用程序可以通过 NUMA 感知的调度策略，优化任务和数据的分布。
高带宽：
- 每个 NUMA 节点有自己的内存通道，多个节点可以并行访问内存，提高了整体内存带宽。

（3）资源隔离

NUMA 架构可以将任务和内存资源隔离到不同的 NUMA 节点，减少资源竞争，提高系统稳定性。

5. NUMA 架构优势的原因

（1）内存访问延迟的优化

在传统的 UMA 架构中，所有处理器共享同一个内存池，随着处理器数量的增加，内存访问竞争加剧，导致延迟增加。
NUMA 架构通过将内存分布到多个节点，减少了内存访问竞争，降低了延迟。

（2）带宽的提升

每个 NUMA 节点有自己的内存通道，多个节点可以并行访问内存，提高了整体内存带宽。
在 UMA 架构中，所有处理器共享有限的内存带宽，容易成为性能瓶颈。

（3）扩展性的提升

NUMA 架构通过增加 NUMA 节点来扩展系统，避免了 UMA 架构中总线带宽和内存控制器的瓶颈问题。

6. NUMA 架构的应用场景

高性能计算（HPC）：
- NUMA 架构适合需要大量内存和计算资源的科学计算、气象模拟等场景。
大型数据库系统：
- 数据库系统（如 OLAP、数据仓库）通常需要处理大量数据，NUMA 架构可以优化内存访问性能。
虚拟化环境：
- 在云计算和数据中心中，NUMA 架构可以优化虚拟机的资源分配，提高虚拟化性能。

7. NUMA 架构的挑战

编程复杂性：
- 开发者需要显式管理数据局部性，增加了编程难度。
负载均衡：
- 任务分配需要兼顾 NUMA 节点的计算能力和内存访问延迟，避免性能瓶颈。
操作系统支持：
- 操作系统需要提供 NUMA 感知的调度和内存分配策略，以充分发挥 NUMA 架构的优势。

总结

NUMA 架构通过将内存分布到多个节点，解决了多处理器系统中的内存访问瓶颈问题，提升了系统的扩展性和性能。其优势主要体现在内存访问延迟的优化、带宽的提升和扩展性的增强。尽管 NUMA 架构在编程和负载均衡方面存在挑战，但在高性能计算、大型数据库和虚拟化环境中，NUMA 架构表现出色。通过操作系统、应用程序和硬件的协同优化，可以充分发挥 NUMA 架构的优势。

NUMA架构中的本地内存是指L1、L2、L3 cache缓存还是RAM

在 NUMA（Non-Uniform Memory Access）架构 中，本地内存 并不是指 CPU 的 L1、L2 或 L3 缓存，而是指与某个 NUMA 节点直接连接的 物理内存（DRAM）。缓存（L1、L2、L3）和本地内存是两个不同的概念，它们在 NUMA 架构中扮演不同的角色。以下是对这些概念的详细解释：

1. 本地内存（Local Memory）

定义：
- 本地内存是指与某个 NUMA 节点直接连接的 物理内存（DRAM）。
- 每个 NUMA 节点都有自己的本地内存，由该节点的内存控制器管理。
- 本地内存的访问延迟最低，带宽最高，因为数据不需要通过互联网络传输。
位置：
- 本地内存位于 SoC（System on Chip）之外，通常是主板上的 DRAM 模块。
- 例如，在一个双路服务器中，每个 CPU 插槽（Socket）连接一部分 DRAM，这部分 DRAM 就是该 CPU 的本地内存。
作用：
- 本地内存用于存储操作系统和应用程序的数据。
- 在 NUMA 架构中，操作系统和应用程序会尽量将数据分配到本地内存，以减少访问延迟。

2. 缓存（Cache）

缓存是 CPU 内部的高速存储器，用于加速对内存数据的访问。缓存分为三级：L1、L2 和 L3。

L1 缓存：
- 每个 CPU 核心独享的缓存，分为指令缓存（L1-I）和数据缓存（L1-D）。
- 速度最快，容量最小（通常为几十 KB）。
- 用于存储核心最常用的指令和数据。
L2 缓存：
- 每个 CPU 核心或一组核心共享的缓存。
- 速度比 L1 缓存稍慢，容量较大（通常为几百 KB 到几 MB）。
- 用于存储核心或核心组的常用数据。
L3 缓存：
- 所有 CPU 核心共享的缓存，通常在一个 NUMA 节点内共享。
- 速度比 L2 缓存慢，但容量最大（通常为几十 MB）。
- 用于存储 NUMA 节点内所有核心的共享数据，减少对内存的访问。
缓存的作用：
- 缓存用于减少 CPU 访问内存的次数，从而降低内存访问延迟。
- 在 NUMA 架构中，缓存的作用尤为重要，因为它可以减少对远程内存的访问。

3. 本地内存与缓存的关系

缓存是 CPU 内部的高速存储器，而 本地内存是外部的物理内存（DRAM）。
缓存用于加速对内存数据的访问，而本地内存是实际存储数据的地方。
当 CPU 需要访问数据时，会首先检查缓存（L1 → L2 → L3），如果缓存中没有所需数据（缓存未命中），才会访问本地内存或远程内存。

4. SoC 上的内存

SoC（System on Chip） 是一种将 CPU、内存控制器、I/O 接口等集成在一个芯片上的设计。
在 SoC 中，内存控制器通常集成在芯片上，但 物理内存（DRAM） 仍然位于芯片外部。
因此，本地内存 是指与 SoC 上的内存控制器直接连接的物理内存，而不是 SoC 内部的缓存。

缓存、RAM、ROM分别是什么

在计算机系统中，缓存（Cache）、RAM（Random Access Memory，随机存取存储器） 和 ROM（Read-Only Memory，只读存储器） 是三种常见的内存类型，它们在系统中扮演不同的角色。除此之外，还有其他一些常见的内存类型。以下是它们的详细介绍：

1. 缓存（Cache）

定义：
- 缓存是一种高速存储器，用于存储 CPU 频繁访问的数据和指令，以减少访问主内存（RAM）的次数。
- 缓存通常集成在 CPU 内部，速度远快于主内存。
特点：
- 速度快：缓存的访问速度比 RAM 快得多，通常以纳秒（ns）为单位。
- 容量小：缓存的容量远小于 RAM，通常为几 KB 到几十 MB。
- 层级结构：现代 CPU 通常有多级缓存（L1、L2、L3），L1 最快但容量最小，L3 最慢但容量最大。
作用：
- 缓存用于加速 CPU 对数据的访问，减少 CPU 等待数据的时间，从而提高系统性能。

2. RAM（Random Access Memory，随机存取存储器）

定义：
- RAM 是计算机的主内存，用于临时存储正在运行的程序和数据。
- RAM 是易失性存储器，断电后数据会丢失。
特点：
- 速度快：RAM 的访问速度比 ROM 快，但比缓存慢。
- 容量大：RAM 的容量通常为几 GB 到几百 GB。
- 随机访问：可以随机访问任意地址的数据，访问时间与数据位置无关。
类型：
- DRAM（Dynamic RAM，动态随机存取存储器）：
  - 需要定期刷新以保持数据，速度较慢但成本低，常用于主内存。
- SRAM（Static RAM，静态随机存取存储器）：
  - 不需要刷新，速度快但成本高，通常用于缓存。
作用：
- RAM 用于存储操作系统、应用程序和用户数据，是计算机运行时的主要工作区域。

3. ROM（Read-Only Memory，只读存储器）

定义：
- ROM 是一种非易失性存储器，用于存储固件或永久性数据。
- 数据在出厂时写入，通常不能修改或只能通过特殊方式修改。
特点：
- 非易失性：断电后数据不会丢失。
- 只读性：数据通常只能读取，不能随意写入。
- 速度较慢：ROM 的访问速度比 RAM 慢。
类型：
- PROM（Programmable ROM，可编程只读存储器）：
  - 出厂后可以通过特殊设备写入数据，但只能写入一次。
- EPROM（Erasable Programmable ROM，可擦除可编程只读存储器）：
  - 可以通过紫外线擦除并重新写入数据。
- EEPROM（Electrically Erasable Programmable ROM，电可擦除可编程只读存储器）：
  - 可以通过电信号擦除并重新写入数据。
- Flash Memory（闪存）：
  - 一种特殊的 EEPROM，广泛应用于 U 盘、SSD 和嵌入式系统中。
作用：
- ROM 用于存储固件（如 BIOS、UEFI）和嵌入式系统的程序代码。

4. 其他常见的内存类型

（1）虚拟内存（Virtual Memory）

定义：
- 虚拟内存是一种内存管理技术，通过将部分数据存储到磁盘（如硬盘或 SSD）来扩展可用内存。
作用：
- 当物理内存（RAM）不足时，操作系统会将不常用的数据转移到磁盘，腾出空间给当前运行的程序。
- 虚拟内存使得程序可以使用比物理内存更大的地址空间。

（2）显存（Video RAM，VRAM）

定义：
- 显存是显卡上的专用内存，用于存储图形数据（如纹理、帧缓冲区）。
特点：
- 显存通常比主内存更快，专为图形处理优化。
- 常见的显存类型包括 GDDR（Graphics Double Data Rate）和 HBM（High Bandwidth Memory）。
作用：
- 显存用于加速图形渲染和显示输出，是游戏和图形设计等应用的关键。

（3）寄存器（Register）

定义：
- 寄存器是 CPU 内部的高速存储器，用于存储指令、地址和临时数据。
特点：
- 速度最快，容量最小（通常为几十到几百字节）。
- 寄存器直接参与 CPU 的运算和控制。
作用：
- 寄存器用于存储 CPU 当前正在处理的数据和指令，是 CPU 运行的核心部分。

（4）非易失性存储器（Non-Volatile Memory，NVM）

定义：
- 非易失性存储器是一种断电后数据不会丢失的存储器。
类型：
- NAND Flash：用于 SSD、U 盘和存储卡。
- NOR Flash：用于嵌入式系统和固件存储。
- 3D XPoint：一种新型非易失性存储器，速度接近 DRAM，用于高性能存储设备（如 Intel 的 Optane）。
作用：
- 非易失性存储器用于长期存储数据和程序。

5. 内存的层级结构

计算机系统中的内存通常按速度和容量分为多个层级，从快到慢依次为：

寄存器：速度最快，容量最小。
缓存（L1、L2、L3）：速度较快，容量较小。
主内存（RAM）：速度较慢，容量较大。
虚拟内存（磁盘）：速度最慢，容量最大。

这种层级结构通过将频繁访问的数据存储在速度更快的存储器中，优化了系统的整体性能。

总结

缓存：高速存储器，用于加速 CPU 对数据的访问。
RAM：主内存，用于临时存储运行中的程序和数据。
ROM：只读存储器，用于存储固件和永久性数据。
其他内存：包括虚拟内存、显存、寄存器和非易失性存储器等，各自在系统中扮演不同的角色。

这些内存类型共同协作，构成了计算机系统的存储层次结构，确保了系统的高效运行。

NUMA架构和sched_domain的关系

NUMA（Non-Uniform Memory Access）架构和 sched_domain 是操作系统调度和内存管理中的核心概念，尤其在多核系统中，它们的关系非常紧密。以下将详细介绍它们的关系，并结合代码和适用场景进行说明。

1. NUMA 架构简介

NUMA 是一种多处理器系统的内存设计架构，其特点是：

非均匀内存访问：每个处理器（或处理器组）有自己的本地内存，访问本地内存速度快，访问其他处理器的内存（远程内存）速度慢。
节点（Node）：NUMA 系统将处理器和内存划分为多个节点，每个节点包含一组 CPU 和本地内存。
性能优化：通过减少远程内存访问，提升系统性能。

2. sched_domain 简介

sched_domain 是 Linux 内核调度器中的一个数据结构，用于描述 CPU 的调度层次结构。调度域将 CPU 分组，每个组内的 CPU 共享某些特性（如缓存、NUMA 节点等），调度器根据这些特性优化任务调度和负载均衡。

层次结构：调度域可以分层，例如：
- 核心级：同一物理核心的 CPU。
- 套接字号：同一 CPU 插槽的 CPU。
- NUMA 节点级：同一 NUMA 节点的 CPU。
负载均衡：调度器会在同一调度域内的 CPU 之间进行负载均衡，避免某些 CPU 过载。

3. NUMA 和 sched_domain 的关系

在 NUMA 系统中，sched_domain 的层次结构与 NUMA 节点紧密相关。调度器会根据 NUMA 节点的特性优化任务调度和负载均衡，具体关系如下：

3.1 NUMA 节点作为调度域

每个 NUMA 节点可以作为一个调度域。
调度器会优先在同一 NUMA 节点内的 CPU 之间进行负载均衡，以减少远程内存访问的开销。

3.2 任务绑定

调度器会尽量将任务绑定到同一 NUMA 节点的 CPU 上，以利用本地内存的优势。
如果任务需要访问大量内存，调度器会优先将其分配到内存所在的 NUMA 节点。

3.3 跨节点调度

当本地节点负载过高时，调度器可能会将任务迁移到其他 NUMA 节点的 CPU 上。
跨节点迁移会带来性能损失（远程内存访问），因此调度器会尽量避免频繁的跨节点迁移。

4. 代码分析

Linux 内核中，sched_domain 和 NUMA 的关系主要通过以下代码体现：

4.1 调度域初始化

在 Linux 内核中，调度域的初始化是通过 build_sched_domains() 函数完成的。该函数会根据系统的拓扑结构（包括 NUMA 节点）创建调度域。

// 内核源码：kernel/sched/core.c
static int build_sched_domains(const struct cpumask *cpu_map, struct sched_domain_attr *attr)
{// 遍历所有 CPU，构建调度域for_each_cpu(cpu, cpu_map) {// 根据 NUMA 节点创建调度域sd = build_sched_domain(topology_core_cpumask(cpu), attr, sd, cpu);if (!sd)goto error;}return 0;
error:return -ENOMEM;
}

4.2 NUMA 节点与调度域绑定

在调度域的构建过程中，内核会通过 topology.c 中的函数获取 NUMA 节点的信息，并将其与调度域绑定。

// 内核源码：arch/x86/kernel/smpboot.c
static void __init init_sched_domains(void)
{// 获取 NUMA 节点信息for_each_online_node(node) {// 为每个 NUMA 节点创建调度域sd = build_sched_domain(node_to_cpumask(node), NULL, NULL, 0);if (!sd)panic("Failed to build sched domains for node %d", node);}
}

4.3 负载均衡与 NUMA

在负载均衡过程中，调度器会优先选择同一 NUMA 节点内的 CPU。

// 内核源码：kernel/sched/fair.c
static int load_balance(int this_cpu, struct rq *this_rq, struct sched_domain *sd, enum cpu_idle_type idle)
{// 检查 NUMA 节点if (sd->flags & SD_NUMA) {// 优先选择同一 NUMA 节点内的 CPUgroup = find_busiest_group(sd, this_cpu, &imbalance, &sd_idle);}// 执行负载均衡return __load_balance(this_cpu, this_rq, sd, idle, &imbalance);
}

5. 适用场景

5.1 高性能计算（HPC）

场景：在 HPC 应用中，任务需要频繁访问内存。
优化：通过将任务绑定到同一 NUMA 节点的 CPU 上，减少远程内存访问，提升性能。

5.2 虚拟化环境

场景：在虚拟机（VM）中运行内存密集型应用。
优化：将虚拟机的 vCPU 绑定到同一 NUMA 节点，避免跨节点内存访问。

5.3 数据库服务器

场景：数据库服务器需要高效处理大量数据。
优化：通过 NUMA 感知的调度策略，将数据库进程绑定到本地内存节点，减少延迟。

6. 总结

NUMA 架构和 sched_domain 的关系主要体现在调度器如何利用 NUMA 节点的特性来优化任务调度和负载均衡。通过将 NUMA 节点作为调度域的一部分，调度器可以更好地管理多核系统中的资源，提升整体性能。在实际应用中，合理配置调度域和 NUMA 绑定可以显著提升内存密集型应用的性能。

查看全文

http://www.mrgr.cn/news/93290.html