当前位置: 首页 > news >正文

大模型国产化算力方案

 

方案1 -  摩尔线程

MTT S4000 | 摩尔线程

大模型训练平台架构

摩尔线程大模型训练平台,完全兼容 CUDA 和 Pytorch 训练系统,支持 Megatron-LM、DeepSpeed、FSDP 和 Colossal-AI 等大模型分布式训练框架。具有全兼容、高性能、高灵活性和简单易用等特点。支持 GPT 系列、LLaMA 系列、GLM 系列等常见大模型的一键千卡训练。使用夸娥千卡智算集群进行大模型训练,线性加速比可达91%以上。支持 Pytorch 用户自主研发,支持模型训练全监控、自动拉起、断点续训等功能。

大模型训练 / 微调实例

MTT S4000 配备的 Tensor 核心算力、48GB 显存以及超高速卡间互连接口 MTLink,可以有效支持多种主流大语言模型训练,包括: LLaMA / GPT / ChatGLM / Qwen / Baichuan 等。 通过摩尔线程大模型训练平台,支持单机 8 卡和多机多卡等多种分布式训练策略,加速从 60 亿参数到千亿参数大语言模型训练以及微调任务。

集群扩展效率

摩尔线程 KUAE 千卡模型训练平台,支持千亿参数模型的预训练、微调和推理,可实现 91% 的千卡集群线性加速比,摩尔线程从应用、分布式系统、训练框架、通讯库、固件、算子、硬件全方位进行优化。MTLink 是基于 MTT S4000 自研的卡间互连技术,支持 2 卡、4卡、8 卡 MTLink Bridge 互连,提升了卡间互连带宽,卡间互连 I/O 带宽达到 240GB/s,可加速集群从 64 卡到 1024 卡的训练速度以及多卡互连的线性度。

参数规格

相关的报道可以看 https://www.thepaper.cn/newsDetail_forward_25728333

方案2 - 华为昇腾910

华为昇腾910代表昇腾系列AI新品的最强算力,是V100的2倍以上,略微超A100/A800 80G PCIe版本,但是相比H100/H800仍有不小的差距。

显存64GB


http://www.mrgr.cn/news/25414.html

相关文章:

  • c++11——share_ptr的助手weak_ptr
  • 前端 + 接口请求实现 vue 动态路由
  • buck boost Ldo 经典模型的默写
  • 排序题目:一手顺子
  • 【办公】会议纪要模板
  • OJ 两两交换链表中的节点
  • MySQL之库和表操作
  • Python容器一之字符串
  • 好看好听的小猪包扩音器,轻巧便携更好用,得胜E10上手
  • 批量插入insert到SQLServer数据库,BigDecimal精度丢失解决办法,不动代码,从驱动层面解决
  • 干部画像系统是什么?
  • 卫生间漏水原因很多,切莫病急乱投医
  • 直播电商平台如何合理分账给供应商/主播
  • 基于SpringBoot的准妈妈孕期交流平台
  • 开源模型应用落地-qwen2-7b-instruct-LoRA微调-unsloth(让微调起飞)-单机单卡-V100(十六)
  • Vue3使用Websocket进行跨页面通信
  • Vue路由的分类与使用
  • 缓存预热/雪崩/穿透/击穿
  • 牛客小白月赛99(下)
  • Shell脚本-拆分文件并重命名(性能测试)