当前位置: 首页 > news >正文

LMDeploy 量化部署实践

任务

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话

复现过程

按照教材安装环境。https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/LMDeploy/readme.md

使用LMDeploy部署原版的1.8b大模型,占用显存20.6G,大模型可以正常对话
在这里插入图片描述

结合W4A16量化与kv cache量化,全部结合使用,占用了11.4G的显存。

lmdeploy serve api_server \/root/models/internlm2_5-7b-chat-w4a16-4bit/ \--model-format awq \--quant-policy 4 \--cache-max-entry-count 0.4\--server-name 0.0.0.0 \--server-port 23333 \--tp 1

在这里插入图片描述

在这里插入图片描述


http://www.mrgr.cn/news/37988.html

相关文章:

  • 图解FTP服务器配置:实体用户方式访问案例
  • 【LLM】 TinyAgent 构建指南
  • 防盗智能电子锁的使用
  • vs2022安装glsl报错问题处理方式
  • 基于FreeRTOS的STM32多功能手表设计
  • 【L波段差分干涉SAR卫星(陆地探测一号01组)】
  • IDEA开发SpringBoot项目基础入门教程。包括Spring Boot简介、IDEA创建相关工程及工程结构介绍、书写配置文件、Bean对象管理等内容
  • JAVAEE如何实现网页(jsp)间的数据传输?一文总结
  • laravel延迟队列 取消未支付超时订单订单
  • LLM | Ollama WebUI 安装使用(pip 版)
  • 代码随想录算法训练营| 110.平衡二叉树、 257. 二叉树的所有路径 、404.左叶子之和、 222.完全二叉树的节点个数
  • selenium 显示等待12种预置条件包括定制等待条件
  • PMA TB40-1 限温器Temperature limiter TB 40-1 手测
  • LeetCode从入门到超凡(四)深入浅出理解贪心算法
  • 优化|基于深度学习的不动点算子优化的热启动方法
  • 【hot100-java】【柱状图中最大的矩形】
  • MindSearch 部署到Github Codespace 和 Hugging Face Space
  • 一文带你读懂分库分表,分片,Sharding的许多概念
  • Iterm2配置主题和Oh-My-Zsh
  • 【2米/8米光学卫星】