当前位置: 首页 > news >正文

[论文笔记] LLM大模型剪枝篇——1、调研

Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。

跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。

跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。

跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。

LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。

The Unreasonable Ineffectiveness of the Deeper Layers

剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。

Mistral和phi的剪枝效果在临界点之前更稳定。Qwen的剪枝效果在临界点之前没那么稳定,需要qlora训练修复。


http://www.mrgr.cn/news/20882.html

相关文章:

  • 使用twilio完成网上拨打电话和发送短信
  • Juhe Chat AI绘画:你的设计,我的设计,好像不一样~~
  • 2024全国制造业数字化转型论坛南京站圆满落幕,共绘智造新篇章
  • 【2024高教社杯全国大学生数学建模竞赛】B题模型建立求解
  • 美国云服务器租赁和托管服务,哪个更好?
  • Peet‘s Coffee与观测云跨界合作,为伙伴们呈现双重喜悦
  • 运动耳机哪个品牌好?2024五大超神精品运动耳机推荐!
  • CDA数据分析一级考试备考攻略
  • 阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
  • 使用 PowerShell 检查 Exchange DAG 状态的详尽指南
  • 51单片机-第十二节-LCD1602液晶显示屏
  • 怎么解决海外服务器远程连接失败的问题?
  • CRM软件的演进:从传统到连接型CRM
  • 污泥浓度在线分析仪
  • 使用WMI改变显示器亮度
  • 告别单调,Xmind思维导图之后还有这三款神器,让学习工作更愉快
  • 猎板道出PCB免费打样真相:制造成本究竟给了谁?
  • 66-java 类型擦除
  • 【技术警报】Redis故障启示录:当主节点宕机,如何避免数据“雪崩”?
  • 【C++】网络编程之Socket初体验-超详细!