如何通过vLLM实现大模型的高效推理?
摘要:本文主要分享如何使用 vLLM 实现大模型推理服务。 1. 概述 大模型推理有多种方式比如 最基础的 HuggingFace Transformers TGI vLLM Triton + TensorRT-LLM ...
本文主要分享如何使用 vLLM 实现大模型推理服务。
1. 概述
大模型推理有多种方式比如
最基础的 HuggingFace Transformers
TGI
vLLM
Triton + TensorRT-LLM
...
其中,热度最高的应该就是 vLLM,性能好的同时使用也非常简单,本文就分享一下如何使用 vLLM 来启动大模型推理服务。
根据 vLLM 官方博客 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention 所说:
进行了 NVIDIA A10 GPU 上推理 LLaMA-7 B 和 在 NVIDIA A100 GPU(40 GB)上推理 LLaMA-13 B 两个实验,在吞吐量上 vLLM 比最基础的 HuggingFace Transformers 高 24 倍,比 TGI 高 3.5 倍。
