当前位置: 首页 > news >正文

LLM 压缩之二: ShortGPT

0. 资源链接

  • 论文: https://arxiv.org/pdf/2403.03853

  • 项目代码: 待开源

1. 背景动机

现有的大语言模型 LLM 推理存在以下问题:

  • LLM 模型因为 scale law 极大的提高模型的预测能力,但是同样带来较大的推理延时;对于 LLM 应用部署带来较大的挑战。

  • 目前的大模型加速的方法主要分为量化和压缩两种,目前量化和压缩一般需要训练以恢复模型精度,尤其量化较低比特时。

2. 内容提要

  • 通过分析大模型存在的冗余性,发现在模型深度的维度存在大量的冗余;可以通过简单的去除冗余层来加速。

  • 本文提出了一个 BI score 的指标来表征层的重要性,基于 BI score,本文提出一个简单的深度剪枝方法。

3. 技术细节

  • BI score 计算公式:

  • 层冗余分析:

  • Layer 剪枝

    • 基于 BI score 排序,减去 BI score 小的层。

4. 实验分析

5. 一些思考

  • ShortGPT 给大模型剪枝提供了一个新视角,对后续的剪枝算法有较大启发。

  • ShortGPT 目前还比较简单,后续应该会有更多的工作出现,优化当前的方案。


http://www.mrgr.cn/news/6682.html

相关文章:

  • swift微调Qwen-7B大模型
  • Unity读取Android本地图片
  • SX_UNIX套接字通信_15
  • 【opencv】SIFT(尺度不变特征变换)算法?
  • 【自动化】考试答题自动化完成答案,如何实现100%正确呢
  • 特殊管道资源采购
  • 【JetPack】LiveData setValue和postValue的区别
  • openjdk11 jvm视角查看java线程异常退出synchronized锁自动释放
  • 深入解析ASP.NET Core 中间件:如何构建高效的请求处理管道
  • 七天.NET 8操作SQLite入门到实战详细教程(选型、开发、发布、部署)
  • 谷粒商城实战笔记-248-商城业务-消息队列-RabbitMQ简介
  • MongoDB快速入门CRUD
  • Docker 部署loki日志 用于微服务
  • 《通义千问AI落地—下》:WebSocket详解
  • 使用nginx做代理转发
  • 区块链基础通识(1)——分布式系统的共识问题
  • easyexcel--多sheet页导入导出
  • 使用[KafkaStreams流计算框架实时计算产生报警(升级报警)
  • Xmind 在线导图上线!多设备实时同步,节约本地空间
  • 系统编程 网络 协议问题总结