如何通过LiteLLM网关统一调度管理我的海量大模型?

摘要:大模型用得越多,越容易陷入一种混乱状态。 这个项目用 OpenAI 那个服务接 Dashscope(Qwen) 测试环境还跑着本地 vLLM 或 Ollama 电脑里配置着一堆 API Key 刚开始问题不大,大家还能靠“记得住”来维持。
大模型用得越多,越容易陷入一种混乱状态。 这个项目用 OpenAI 那个服务接 Dashscope(Qwen) 测试环境还跑着本地 vLLM 或 Ollama 电脑里配置着一堆 API Key 刚开始问题不大,大家还能靠“记得住”来维持。 但只要项目一多、人数一多,麻烦立刻显现出来: 费用开始失控、模型切换成本极高、权限越来越乱、出了问题也很难排查。 于是,越来越多团队开始引入一个概念: 大模型网关(LLM Gateway)。 在目前的开源方案里,LiteLLM 是非常实用、也非常容易真正落地的一种。 我们按下面这条路线,一步步把它跑起来: 为什么要用 → Docker Compose 部署 → 模型与 Key 管理 → 权限与预算 → 实际调用 → 真实使用场景 一、LiteLLM 是什么?它解决的不是“能不能用”,而是“怎么管” 先说清楚一件事: LiteLLM 本身不是模型。 它更像是一个统一的大模型代理层,或者你也可以理解为: 所有大模型的 统一入口 + 管理中枢 对外,它暴露的是 OpenAI 兼容 API; 对内,它可以接入各种不同来源的大模型,包括: OpenAI / Azure OpenAI Anthropic / Gemini / Dashscope HuggingFace 本地 vLLM、Ollama 甚至多家模型同时存在 最终的效果是: 应用侧只需要认一个地址、一个 Virtual Key。 至于后面到底用的是哪家模型、怎么调度、怎么限额,全部交给 LiteLLM 处理。 二、Docker Compose 部署(生产环境强烈推荐) 如果只是本地玩一玩,直接起一个 Docker 容器也可以。 但只要你是长期使用或多人使用,Docker Compose 是最稳妥的方式。 它有几个明显好处: 部署结构清晰 配置可复现 后期升级、迁移成本低 1️⃣ 准备目录结构 litellm/ ├── docker-compose.yml └── .env 保持简洁,后面所有东西都围绕这两个文件来。
阅读全文