当前位置: 首页 > news >正文

如何使用vllm在服务器上部署模型并调用

前言

📢博客主页:程序源⠀-CSDN博客
📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正!

 一、前期准备

环境准备:python3.10,cuda12.1

安装vllm:

Installation — vLLM

# (Recommended) Create a new conda environment.
conda create -n myenv python=3.10 -y
conda activate myenv# Install vLLM with CUDA 12.1.
pip install vllm

二、模型下载、启动服务

在魔塔社区找到自己要下载的模型。复制模型名称

魔搭社区

 直接用这个命令

vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123

如果没有下载模型,会先下载模型的。

如果网络超时或者报错。可以选择从魔塔社区下载,vllm默认是从huggingface去下载的。

要设置环境变量

export VLLM_USE_MODELSCOPE=True

三、调用服务

api_key是启动命令行里面下自己定义的

和openAI一样的调用方式

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",api_key="token-abc123",
)completion = client.chat.completions.create(model="NousResearch/Meta-Llama-3-8B-Instruct",messages=[{"role": "user", "content": "Hello!"}]
)print(completion.choices[0].message)


http://www.mrgr.cn/news/50830.html

相关文章:

  • 高可用之限流-07-token bucket 令牌桶算法
  • [供应链] 库存盘点
  • 【中文注释】planning_scene_tutorial.cpp
  • page cache是怎么回写到存储设备的?
  • 卫爱守护|守护青春,送出温暖
  • 480: Locker doors
  • IO编程--拷贝文件、文件总行数输出、时间打印
  • MYSQL数据库操作
  • Codeforces Round 942 (Div. 2) D2. Reverse Card (Hard Version)
  • 51单片机快速入门之数码管的拓展应用2024/10/15
  • 免费也能这么强?五款超实用报表工具推荐
  • 诺奖印证产业方向,AI先行者晶泰科技开拓黄金赛道
  • 目标检测——Libra R-CNN算法解读
  • 嵌入式Linux:信号掩码
  • windows系统备份mysql数据库bat脚本
  • 【基础解读】Word2Vec和GloVe
  • 注意力机制2024持续发力!多尺度卷积+Attention一举拿下高分!模型准确率几乎100%
  • 【自然语言处理】Encoder-Decoder架构
  • 100套深度学习毕业设计项目合集【含源码 + 操作文档】
  • 跨境电商干货:Etsy选品及相关运营技巧分享