当前位置: 首页 > news >正文

开源大模型LLaMA架构介绍

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. swift与Internvl下的多模态大模型分布式微调指南(附代码和数据)
  2. 多模态大模型Internvl-1.5-26B微调后部署及测试实录(附代码)
  3. 多模态大模型Internvl-2-26B的OCR赋能方案(附代码)
  4. miniconda+xinference的大模型推理部署指南
  5. Mem0:大模型最强赋能“有记忆的LLM”
  6. 再谈Agent:Dify智能体实现Txet2SQL
  7. Moe模式:或将是最好的大模型应用开发路径
  8. 一文带你了解大模型RAG
  9. 详细记录swfit微调interVL2-8B多模态大模型进行目标检测(附代码)
  10. DIfy中集成magic-pdf实现文档解析agent与多模态大模型图文问答
  11. 大模型Prompt trick:利用大模型同情心提升模型性能
  12. 一文带你入门大模型微调
  13. 开源大模型LLaMA架构介绍

文章目录

  • 大模型相关目录
  • 开源大模型LLaMA架构介绍
    • ChatGPT等商业大模型并不“Open”
    • LLaMA
    • 模型技术:RMSNorm (Zhang and Sennrich, 2019)
    • 模型技术:SwiGLU (Shazeer, 2020)
    • 模型技术:SwiGLU (Shazeer, 2020)
    • 模型技术:Rotary Embeddings, RoPE (Su et al., 2021)
  • Llama-2
    • Grouped-Query Attention (GQA) (Ainslie et al., 2023)
  • 中文LLaMA&Alpaca大模型系列


开源大模型LLaMA架构介绍

抛砖引玉,用最近获取的一些资料,介绍一些羊驼模型的技术点和发展历史。

ChatGPT等商业大模型并不“Open”

• 以ChatGPT为代表的商业大模型不论是在效果上还是用户体验上都具有显著优势
• 然而,由于商业大模型的封闭性,使得整个模型属于“黑盒”,不利于开放透明的技术研究
• 学术界需要开源开放的大模型以供未来的技术探索与研究

LLaMA

Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)
• 2023年2月,Meta(原Facebook)推出了LLaMA大模型,使用了1.4T token进行训练
• 虽然最大模型只有65B,但在相关评测任务上的效果可以媲美甚至超过千亿级大模型
• 被认为是近期开源大模型百花齐放的开端之一,
“羊驼”系列模型及其生态快速发展
• 主干模型仍然是传统的transformer decoder结构
• 主要技术:Pre-normalization, SwiGLU activation, Rotary Embedding (RoPE)

模型技术:RMSNorm (Zhang and Sennrich, 2019)

• RMSNorm相比LayerNorm计算更加简单而且更有效,经常被用于大模型训练中
• LLaMA模型中的“norm”均使用了RMSNorm

在这里插入图片描述

模型技术:SwiGLU (Shazeer, 2020)

• 谷歌提出的优化Transformer全连接层的新激活方法,在后续的PaLM等模型中也得到应用
• LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为(2/3) ⋅ 4d

在这里插入图片描述
在这里插入图片描述

模型技术:SwiGLU (Shazeer, 2020)

• 在GLUE、SQuAD上的实验结果表明,SwiGLU、ReGLU相比其他激活函数具有一定性能优势
• 基于Gating的方法普遍优于单纯的激活函数(ReLU/GELU/Swish等)
在这里插入图片描述

模型技术:Rotary Embeddings, RoPE (Su et al., 2021)

• 绝对位置编码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Llama-2

在这里插入图片描述

Grouped-Query Attention (GQA) (Ainslie et al., 2023)

• GQA是一种提升推理速度的方法,主要针对多头注意力机制进行改进,与KV cache搭配使用

在这里插入图片描述
在这里插入图片描述

中文LLaMA&Alpaca大模型系列

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.mrgr.cn/news/7714.html

相关文章:

  • 【python】调用openAI api接口批量处理excel中的文本
  • kickstart自动安装脚本制作详解
  • 自来水厂供水监控的串口服务器应用
  • mysql在字符串列建立索引示例
  • 怎样更改电脑的MAC地址?
  • Qt QLabel点击事件
  • Go语言标准错误error解析
  • Git和TortoiseSVN忽略的使用
  • Java RPC、Go RPC、Node RPC、Python RPC 之间的互相调用
  • git push 更新被拒绝,因为您当前分支的最新提交落后于其对应的远程分支
  • 双系统安装:一键解锁电脑新境界,Windows与Linux并肩作战!
  • UneMeta创始人讲述自己在Web3+IP领域创业的心路历程
  • 【HarmonyOS NEXT星河版开发实战】灯泡定时开关
  • 科技在日常生活中的革新
  • 微信小程序--使用antv F2绘制折线图
  • elementui 远程搜索选择框+后端Flask
  • JavaScript 原型与原型链
  • TD学习笔记————中级教程总结(中)
  • jmeter中CSV 数据文件设置用例
  • MySQL系统性的学习--基础