当前位置：首页 > news >正文

如何使用vllm在服务器上部署模型并调用

news 2025/12/27 23:19:07

前言

📢博客主页：程序源⠀-CSDN博客
📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！

一、前期准备

环境准备：python3.10，cuda12.1

安装vllm：

Installation — vLLM

# (Recommended) Create a new conda environment.
conda create -n myenv python=3.10 -y
conda activate myenv# Install vLLM with CUDA 12.1.
pip install vllm

二、模型下载、启动服务

在魔塔社区找到自己要下载的模型。复制模型名称

魔搭社区

直接用这个命令

vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123

如果没有下载模型，会先下载模型的。

如果网络超时或者报错。可以选择从魔塔社区下载，vllm默认是从huggingface去下载的。

要设置环境变量

export VLLM_USE_MODELSCOPE=True

三、调用服务

api_key是启动命令行里面下自己定义的

和openAI一样的调用方式

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1",api_key="token-abc123",
)completion = client.chat.completions.create(model="NousResearch/Meta-Llama-3-8B-Instruct",messages=[{"role": "user", "content": "Hello!"}]
)print(completion.choices[0].message)

查看全文

http://www.mrgr.cn/news/50830.html