跳转至

1Panel 文档

vLLM

1Panel-dev/1Panel

vLLM

vLLM⚓︎

vLLM 是面向大语言模型的高吞吐、内存高效推理与服务引擎。1Panel 在 AI -> 模型 -> vLLM 页面提供可视化管理能力，可用于统一创建、编辑、启停和维护本地 vLLM 服务。

该功能属于 1Panel 专业版。

1 前置条件⚓︎

在创建 vLLM 服务前，请先确认以下条件已满足：

服务器已安装 NVIDIA 显卡驱动，且执行 nvidia-smi 可以正常查看显卡信息
已按照 NVIDIA 官方文档安装并配置 NVIDIA Container Toolkit
Docker 已具备 GPU 运行能力
已提前将需要加载的模型文件放置到服务器本地目录中

如需先检查 GPU 是否可用，可参考 GPU 监控文档。

2 创建 vLLM 服务⚓︎

打开 1Panel 面板后，进入 AI 菜单，在模型页面切换到 vLLM 标签页，点击创建。

按页面要求填写 vLLM 的部署参数后，点击确认即可开始创建。创建过程会以任务的方式在后台执行，完成后可在列表中查看服务状态。

参数说明

名称：vLLM 服务名称，用于列表展示与后续管理
版本：选择需要部署的 vLLM 应用版本。FusionXpark GB 10 服务器请优先选择 -cu130 版本
端口：vLLM 服务对外提供 API 的端口，默认可使用 8000
模型目录：服务器上的本地模型目录。选择后，1Panel 会将该目录挂载到容器中
启动命令：用于启动 vLLM 服务的命令参数。选择模型目录后，系统会根据目录名称自动生成默认命令；如有特殊推理参数需求，也可自行调整

vLLM 服务创建完成后，会以 OpenAI 兼容接口的形式对外提供推理能力，便于后续接入智能体或其他 AI 应用。

3 高级设置⚓︎

如需对容器运行方式做进一步控制，可展开 高级设置。

高级设置说明

容器名称：自定义 vLLM 容器名称，默认会跟随服务名称自动填写
端口外部访问：开启后会放开防火墙端口，允许通过外部网络访问该服务
绑定主机 IP：用于限制端口只绑定到指定主机地址或网卡；如果不清楚用途，建议保持默认
重启策略：配置容器异常退出后的重启方式
CPU / 内存限制：限制 vLLM 容器可使用的主机资源
拉取镜像：在启动前主动执行镜像拉取，确保使用目标版本镜像
编辑 compose 文件：允许手动调整部署使用的 Compose 配置；该选项适合有经验的用户，修改不当可能导致创建失败