当前位置: 首页 > news >正文

模型融合创新性好强!最新成果直接登顶SOTA,分分钟拿下顶会

Transformer作者创业新成果火了!他们提出了一个70亿参数的日语数学大模型,直接打败700亿参数的Llama-2取得SOTA!更牛的是,得出这样的模型无需任何梯度训练,所需计算资源大大减少。

这种炸裂的成果得益于模型融合(Model Merging)技术,利用现有模型的参数、架构和特性,巧妙结合成一个新的、功能更强大的模型,这不仅减少了从头训练大型模型所需的计算资源和时间,还能帮我们在模型研究大爆发的情况下抓住机会,实现快速创新。

因此今年关于模型融合的研究也逐渐火热,出现了很多效果出众的成果,比如Zipit! 方法,性能最高提升了60%!为了给想发论文的同学节省时间,我从中挑选了11篇最新的模型融合论文给大家作参考,每一篇都值得学习,希望大家研读之后能有所收获。

论文原文+开源代码需要的同学看文末

Evolutionary Optimization of Model Merging Recipes

方法:论文提出了一种使用进化算法进行模型合并的方法,该方法在参数空间和数据流空间中操作,通过优化权重和推理路径,自动发现有效的模型组合,实现模型合并,生成具有新能力的模型,并在各种基准测试中取得了最先进的性能。

创新点:

  • 通过进化算法自动发现多种开源模型的有效组合,而无需额外的训练数据或计算资源。

  • 通过在参数空间和数据流空间中操作,实现了对个体模型权重以外的优化,实现了模型合并的优化。

  • 创新地合并不同领域(如非英语语言和数学,或非英语语言和视觉)的模型,展示了合并模型在多个基准测试中取得的优秀性能。

  • 提出了一种综合的框架,同时在参数空间和数据流空间中进行模型合并,进一步提升了合并模型的性能。

Zipit! merging models from different tasks without training

方法:本文提出了一种称为"ZipIt!"的模型融合方法,可以将训练在不同任务上的两个模型合并为一个多任务模型,无需额外训练。与之前的方法不同的是,ZipIt!支持在模型内部和跨模型之间合并特征,从而获得更好的性能。

创新点:

  • 该方法引入了两种策略来解决模型融合的问题。首先,为了考虑到模型之间不共享的特征,它扩展了模型合并问题,允许在每个模型内部合并特征,通过定义一个通用的“zip”操作。其次,它支持部分合并模型,从而创建一个多头模型。

  • 通过使用ZipIt!方法,作者发现在合并具有不同初始化的模型时,与之前的方法相比,可以获得20-60%的改进。

TIES-MERGING: Resolving Interference When Merging Models

方法:论文介绍了一种解决模型融合中干扰问题的方法——TIES-MERGING。研究目标是将多个专门任务的模型融合为一个多任务模型,以在域内和域外的场景中都能表现良好。

创新点:

  • 引入一种解决模型合并时干扰问题的方法TIES-MERGING(修剪、选择符号和合并)。

  • TIES-MERGING修剪了微调模型值中的小幅度变化,然后解决了合并模型间的符号不一致问题。

  • TIES-MERGING在多种设置中优于几种现有方法,包括不同的模态、模型大小、领域、任务数量、架构和微调设置。

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

方法:本文介绍了一种有效地合并预训练视觉模型的方法。作者提出了一种多任务蒸馏和记忆重演的简单而高效的方法,将多个视觉模型合并成一个统一的架构。具体来说,作者将该方法应用于合并SAM和CLIP视觉模型,并介绍了合并后的SAM-CLIP模型。

创新点:

  • 通过多任务蒸馏和记忆回放的方法,将公开可用的视觉基础模型合并成一个统一的架构。这种方法能够在最小程度上遗忘原始模型的零样本能力,适合在边缘设备上部署。

  • 通过合并模型产生更丰富的表示,适用于更多不同的下游任务。与原始模型相比,在头部探测评估设置中,合并的模型能够产生更多样化的表示,具有更多的下游任务可利用性。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“模型融合”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏


http://www.mrgr.cn/news/21041.html

相关文章:

  • Java笔试面试题AI答之JDBC(3)
  • 开关电源纹波测试方法
  • RHCE必过技巧,无需本人参加也可拿证?
  • 远程访问服务器
  • C语言手撕实战代码_二叉树_构造二叉树_层序遍历二叉树_二叉树深度的超详细代码实现
  • ubuntu16.04下qt5.7.1添加对openssl的支持
  • Minitab统计软件 | Minitab是什么?面对棘手的业务挑战,为什么越来越多企业选用 Minitab ?
  • 中国传媒业人工智能应用发展图谱2024
  • LTRharvest使用教程(中文首发)
  • Java进阶13讲__第九讲
  • 细致刨析JDBC ① 基础篇
  • 史记全译系列 4 十二本纪 周本纪第四 说明
  • 【数字信号处理】一文讲清FFT(快速傅里叶变换)
  • git查看、修改、删除属性,配置提交commit用户名和邮箱
  • 终端协会发布《移动互联网应用程序(App)自动续费测评规范》
  • Live800:以客户为中心,重塑服务标准
  • 通义灵码助力高校开学第一课,“包”你满意,新学期加油!
  • 遗传算法与深度学习实战(10)——遗传编程详解与实现
  • ueditor图片上传(多图上传 单图上传)
  • 绘世启动器:秋叶aaaki整合包导入最新AIStarter与问题解决