当前位置：首页 > news >正文

【AI学习】概念了解

news 2025/7/2 18:22:27

1，GPU

专门用于处理图形相关运算任务的微处理器，它起初主要聚焦于加速图形渲染，让计算机能够快速、流畅地显示高质量的图像、视频以及 3D 场景等内容，在电脑游戏、影视特效制作、动画设计等领域有着至关重要的作用。
与传统的中央处理器（CPU）相比，GPU 有着数量众多的核心，采用并行计算架构。例如，CPU 可能只有几个核心，处理任务时多是按顺序依次执行；而 GPU 有成百上千个小核心，能够同时处理多个数据片段，就像多条并行的生产线同时开工一样，所以特别适合处理那些可以分解成多个并行子任务的数据，比如图形渲染中对图像各个像素点的处理、光线追踪计算等，通过并行计算能极大地提高运算效率。

1）NVIDIA GPU

英伟达公司推出的一系列图形处理单元，是模型训练和推理的重要工具，能加速神经网络的计算，缩短训练时间，提高模型的准确性和泛化能力。
NVIDIA GPU在人工智能上的领先地位取决于以下几个方面：

强大的并行计算能力：
人工智能算法，尤其是深度学习算法，涉及大量的矩阵运算和数据并行处理。例如，在训练深度神经网络时，需要对海量的数据进行反复的乘法和加法运算。NVIDIA GPU 拥有大量的计算核心，可同时处理多个数据样本，能并行执行这些运算，大大提高计算效率，缩短模型训练时间。像 GPT-3 等大型语言模型的训练，就依赖大量 NVIDIA GPU 来实现高效运算。
成熟的软件生态系统：
NVIDIA 推出了 CUDA（统一计算设备架构）编程平台，开发者通过 CUDA 能方便地利用 GPU 的并行计算能力进行深度学习算法开发，大大简化了人工智能开发流程。同时，还有 CUDA-X AI 等一系列 AI 开发工具，适用于不同 AI 任务。此外，NVIDIA 还提供了如 cuDNN（CUDA 深度神经网络库）等优化库，能进一步提高深度学习模型的训练和推理速度。
不断创新的硬件架构：
NVIDIA 不断推出新的 GPU 产品和架构。例如，其推出的 A100、H100 等数据中心级 GPU，具有更高的性能和更低的功耗。从 Volta 架构开始引入的 Tensor Core，专门用于加速神经网络中的矩阵乘法和卷积运算，进一步提升了深度学习的计算效率。最新的 NVIDIA Hopper Tensor Core GPU 还包含 Transformer Engine，可自动调整到处理 Transformer 模型所需的最佳精度，Transformer 模型是生成式 AI 的一类重要神经网络。

数据中心级 GPU：A100、H100

2，VRAM（Video Random Access Memory，视频随机存取存储器）

用于图形处理相关应用的高速随机存取存储器，它主要被集成在图形处理器（GPU）或与 GPU 紧密配合使用，其核心功能是存储图形数据，比如图像的像素信息、纹理数据、渲染指令等，为 GPU 快速处理图形任务提供数据支持，保障图像、视频以及 3D 场景等内容能流畅、高质量地呈现出来。

3，推理引擎

基于已训练好的模型（比如深度学习中的神经网络模型、规则引擎中的规则集合等），对新输入的数据进行处理，以得出相应的推理结果。
常见于人工智能领域：

图像识别中根据输入图像判断物体类别
自动驾驶领域，车辆需要实时对摄像头捕捉到的路况图像、雷达等传感器收集的数据进行分析推理，以便及时做出决策，如刹车、转向。
人脸识别。
自然语言处理里分析文本语义
智能语音助手。
医疗影像诊断领域
对于 X 光、CT 等大量的医疗影像，通过加速推理引擎，能快速辅助医生判断影像中是否存在病变、疾病的可能类型等关键信息，节省医生诊断时间，提高诊断准确率。

4，量化蒸馏模型

是一种融合了模型量化与知识蒸馏技术的方法，旨在在降低模型计算成本、提高推理效率的同时，尽量保留模型的准确性和泛化能力。

1）模型量化

将模型中原本以高精度数据格式（如 32 位浮点型）表示的参数、激活值等转换为低精度的数据格式（如 8 位整型或更低）的操作。从而减少模型的存储体积以及计算时所需要的资源消耗。

2）知识蒸馏

是一种模型压缩与优化的方法，它利用一个已经训练好的、性能强大的 “教师模型”，将其蕴含的知识 “传授” 给一个相对简单、规模较小的 “学生模型”。具体操作上，通常是让 “学生模型” 去学习 “教师模型” 输出的软标签（概率分布形式的标签）以及中间层的特征表示等信息，而不仅仅是传统的硬标签（如分类任务中明确的类别标签）。
在很多情况下，复杂的大型模型虽然准确性高，但存在计算资源消耗大、推理速度慢等问题，不利于在实际应用中广泛部署。知识蒸馏通过这种 “以大带小” 的方式，使得 “学生模型” 能在一定程度上吸收 “教师模型” 的优势知识，从而在减小模型规模的同时，尽可能保持较高的准确率和良好的泛化能力，更易于在资源受限的环境下（如边缘计算设备、物联网设备等）使用。