专题:vLLM
共11篇相关文章

沐曦C500上如何高效管理GPUStack的vLLM和SGLang推理服务及生产化运维?
在当前大模型推理逐步走向生产化的背景下,如何在多样化硬件环境上高效、稳定地管理推理服务,在工程落地中尤其关键。尤其是在国产 GPU 场景中,不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升,单纯依赖手工部署或脚本维护,往往难以兼顾效率...

如何私有部署Gemma 4并实现文本图像视频音频处理及调用相关工具?
随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用等方面都有明显提升。 以下为 Gemma...

vLLM新参数performance-mode提升效果如何?Qwen3.5实测!
本文基于 Qwen3.5 在 H100H200 上的实测,分析 vLLM performance-mode 的实际作用。结果表明,它并非独立提速手段,而是结合量化、cache 等优化,用于收敛低延迟或高吞吐目标,主要价值在于缩小调优范围。...

vLLM Ascend 是不是昇腾上最优的 EmbeddingReranker 推理方案?
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei...

阿里PPU加入GPUStack,国产算力版图统一调度里程碑,这难道不是异构算力的重磅突破吗?
GPUStack 2.1.0 正式新增对阿里 PPU(平头哥)的支持,在 PPU 平台上实现 vLLMSGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。 在 NVIDIA、AMD、华为...

北京SGLang Meetup倒计时1天,这场AI Infra深度对话你期待吗?
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服...

如何将GPT OSS私有部署推理性能提升100倍的教程忘掉Ollama?
基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。...

AI推理融资背后,系统化与治理趋势是否显现?
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元: 图源:Inferact SGLang 团队也成立了 Rad...

GPUStack v2开源后,大模型推理下半场释放算力潜能,如何重塑?
在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。...

VLLM模型推理框架的原理和整体架构是怎样的?
Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softm...

如何通过vLLM实现大模型的高效推理?
本文主要分享如何使用 vLLM 实现大模型推理服务。 1. 概述 大模型推理有多种方式比如 最基础的 HuggingFace Transformers TGI vLLM Triton + TensorRT-LLM ......
