当前位置: 首页 > news >正文

DeepSpeed入门

①首先要明白训练模型时显存主要用在如下四个地方:(1、模型参数;2、梯度;3、优化器;4、激活值)

以两层NN为举例(第一次NN是4*3,第二层NN是3*2假设batch_size=3;Adam优化器)              

参数量:模型参数显存占用:92字节梯度显存占用:92字节优化器显存占用:184字节激活值显存占用:60字节
总结:1.梯度和模型结构的参数量是一样。2.Adam优化器占用显存是模型结构的2倍。3.激活值就是每层输出值,它略小于模型结构参数。


http://www.mrgr.cn/news/16598.html

相关文章:

  • 【Windows学习笔记】1:OneCore和Windows API
  • 深入解析HarmonyOS Image组件的使用与优化
  • Windows服务器应急响应(下)
  • C语言:getchar()、putchar()及int、char之间的互相赋值
  • 【JavaScript】函数:arguments对象
  • fork入门
  • 手机充值的功能测试框架 - 测试要点
  • EXO项目StandardNode;max_generate_tokens;buffered_token_output;is_finished;
  • Unity实战案例全解析 之 背包/贩卖/锻造系统(左侧类图实现)
  • fastmock使用
  • Linux——IO模型_多路转接(epoll)
  • 【立体匹配】双目相机外参自标定方法介绍
  • 实现一个能设置MaxLine的LayoutManager
  • 【C++ 第十八章】C++11 新增语法(1)
  • 《软件工程导论》(第6版)第4章 形式化说明技术 复习笔记
  • VSCode+debugpy远程调试
  • 强推第一本给程序员看的AI Agent教程终于来啦!全方位解析LLM-Agent
  • 空岛战争的正确姿势
  • 【鸿蒙开发从0到1-day03】
  • 震惊!更换GPU会改变LLM的行为