当前位置: 首页 > news >正文

LLM小模型系列研究(01)

LaMini-Flan-T5–248M

团队构建了一套由现有和新建指令组成的 2.58M 条指令集。这些指令涵盖多个主题,然后使用 GPT-3.5-turbo 生成响应。

根据 Lamini 的论文,LaMini-Flan-T5-248M 在下游 NLP 任务上的表现甚至优于 LLaMa-7B。当模型尺寸较大时,LaMini-Flan-T5 与 LaMini-GPT 相当。即使在 5 亿个参数以下,LaMini-Flan-T5 系列也能产生惊人的效果

LaMini-LM | LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

orca-mini-3b

StableLM-zephyr

Danube-1.8b-chat

  • https://huggingface.co/brittlewis12/h2o-danube-1.8b-chat-GGUF

  • https://huggingface.co/asedmammad/gemma-2b-it-GGUF/tree/main

  • https://huggingface.co/tsunemoto/cosmo-1b-GGUF/tree/main

MobiLlama-1B-Chat

MobiLlama 是一种 SLM 设计,它从更大的模型开始,并应用了谨慎的参数共享方案,以降低预训练和部署成本。

[https://huggingface.co/MBZUAI/MobiLlama-1B-Chat)

Qwen 0.5b

Danube3–0.5-chat

0.5b 聊天模型:小巧、快速、功能强大

h2o-danube3–500m-chat 是 H2O.ai 开发的聊天微调模型,拥有 5 亿个参数。根据Hugging Face Hub 上的模型卡,它可以在手机上本地运行,完全离线——你可以使用H2O AI Personal GPT亲自尝试。

H2O 对 Llama 2 架构进行了总共约 5 亿个参数的调整。有关详细信息,我们可以参考技术报告。团队决定使用词汇量为 32,000 的 Mistral 标记器,并将模型训练到上下文长度为 8,192 个标记

https://huggingface.co/h2oai/h2o-danube3-500m-chat

TinyLlama

TinyLlama 的目标是在 3 万亿个标记上对 1.1B Llama 模型进行预训练。

新加坡的亚洲团队。该项目目前由新加坡科技设计大学 StatNLP 研究小组的Peiyuan Zhang *、Guangtao Zeng *、Tianduo Wang和Wei Lu贡献

通过适当的优化,我们可以在“仅”90 天内使用 16 个 A100–40G GPU 🚀🚀 实现这一目标。

采用了与 Llama 2 完全相同的架构和标记器。这意味着 TinyLlama 可以插入并运行在许多基于 Llama 构建的开源项目中。此外,TinyLlama 非常紧凑,只有 1.1B 个参数。这种紧凑性使其能够满足大量需要有限计算和内存占用的应用程序的需求

一般来说,只要你有足够的 RAM,参数少于 3B 的模型可以在没有 cuda 支持的情况下运行

https://huggingface.co/TheBloke/TinyLlama-1.1B-1T-OpenOrca-GGUF

Gemma2–2B

2B 参数模型超越了 GPT-3.5(175B+ 参数)——几乎令人难以置

  • 这款生成式人工智能拥有 26.1 亿个参数,足够小,可以在任何消费级硬件上运行

  • 即使只使用 CPU 你也能拥有不错的速度

  • 8k 个 token 的上下文长度使我们能够进行 RAG、上下文学习和思维链

  • 能流利地说多种语言:英语、意大利语、法语、德语

https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q5_K_M.gguf

 wget https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q5_K_M.gguf -OutFile model/gemma-2-2b-it-Q5_K_M.gguf

Gemini Nano

Gemini Nano 分为两个层级,Nano 1(18 亿)和 Nano 2(32.5 亿),分别适用于低内存和高内存设备。Gemini Nano 内置于谷歌的 Pixel 8 Pro 上,它将成为一款全面增强 AI 的智能手机)。

Inference

from llama_cpp import Llamallm = Llama( model_path='model/gemma-2-2b-it-Q5_K_M.gguf','model/gemma-2-2b-it-Q5_K_M.gguf', #n_gpu_layers=0, temperature=0.24, n_ctx=8196, max_tokens=600, repeat_penalty=1.176, stop=['<eos>'], verbose=False, )print(llm.create_chat_completion( messages=[{'role':'user','content':'What is Science?'}], stop=['<eos>']))


http://www.mrgr.cn/news/3470.html

相关文章:

  • STM32- 笔记2
  • CSS:display和visiblity
  • 小白学大模型:GLM 调用教程
  • FlinkCDC初体验
  • 关于c++ grpc 和 c# grpc 通信的问题 以及 grpc 认证问题
  • 公开课观后感:密歇根大学python for everyone
  • 初识redis:Set类型
  • 【实战场景】如何优雅实现分页
  • 20240821给飞凌OK3588-C的核心板刷Rockchip原厂的Buildroot并挂载1TB的exFAT格式的TF卡
  • ARM 裸机与 Linux 驱动对比及 Linux 内核入门
  • 【ARM+Codesys 客户案例 】 基于RK3568/A40i/STM32+CODESYS在工厂自动化中的应用:铆接机
  • Android强大的滚动控件RecyclerView
  • 反向沙箱是什么?如何使用反向沙箱保障上网安全
  • Ecosmos开启公测,将深度赋能CIOE中国光博会元宇宙参会新体验
  • Excel平均值与减法技巧
  • Python编码系列—前端后浪:Python前后端分离开发实战指南
  • 图片太大不能上传怎么压缩变小?图片压缩变小的8个方法
  • 极限02:两个重要极限
  • package 文件中的 main、module、exports 字段
  • 企业级WEB应用服务器TOMCAT攻略