当前位置：首页 > news >正文

LMDeploy 量化部署实践

news 2025/10/20 12:40:55

任务

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话

复现过程

按照教材安装环境。https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/LMDeploy/readme.md

使用LMDeploy部署原版的1.8b大模型，占用显存20.6G，大模型可以正常对话
在这里插入图片描述

结合W4A16量化与kv cache量化，全部结合使用，占用了11.4G的显存。

lmdeploy serve api_server \/root/models/internlm2_5-7b-chat-w4a16-4bit/ \--model-format awq \--quant-policy 4 \--cache-max-entry-count 0.4\--server-name 0.0.0.0 \--server-port 23333 \--tp 1

在这里插入图片描述

查看全文

http://www.mrgr.cn/news/37988.html

图解FTP服务器配置：实体用户方式访问案例

【LLM】 TinyAgent 构建指南

防盗智能电子锁的使用

vs2022安装glsl报错问题处理方式

基于FreeRTOS的STM32多功能手表设计

【L波段差分干涉SAR卫星（陆地探测一号01组）】

IDEA开发SpringBoot项目基础入门教程。包括Spring Boot简介、IDEA创建相关工程及工程结构介绍、书写配置文件、Bean对象管理等内容

JAVAEE如何实现网页(jsp)间的数据传输？一文总结

laravel延迟队列取消未支付超时订单订单

LLM | Ollama WebUI 安装使用（pip 版）

代码随想录算法训练营| 110.平衡二叉树、 257. 二叉树的所有路径、404.左叶子之和、 222.完全二叉树的节点个数

selenium 显示等待12种预置条件包括定制等待条件

PMA TB40-1 限温器Temperature limiter TB 40-1 手测

LeetCode从入门到超凡(四)深入浅出理解贪心算法

优化｜基于深度学习的不动点算子优化的热启动方法

【hot100-java】【柱状图中最大的矩形】

MindSearch 部署到Github Codespace 和 Hugging Face Space

一文带你读懂分库分表,分片,Sharding的许多概念

Iterm2配置主题和Oh-My-Zsh

【2米/8米光学卫星】

任务

复现过程

相关文章：