专题:高性能推理
共6篇相关文章

本周六北京SGLang Meetup,关于AI Infra的深度对话,你将赴约吗?
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服...

北京SGLang Meetup倒计时1天,这场AI Infra深度对话你期待吗?
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服...

如何详细部署GPUStack Windows在WSL2上?
在 WSL2(Windows Subsystem for Linux) 中配置 NVIDIA GPU 并部署 GPUStack。...

AI推理融资背后,系统化与治理趋势是否显现?
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元: 图源:Inferact SGLang 团队也成立了 Rad...

GPUStack在SOAR时,如何让开源大模型推理速度再提升一倍?
随着大模型应用规模持续扩张,如何在有限算力条件下提升推理效率,已成为 AI 基础设施建设的核心课题。 GPUStack 致力于统一管理异构 GPU 资源,实现高性能、稳定且可扩展的 AI 模型服务。在这一背景下,GPUStack 与 SOA...

GPUStack v2开源后,大模型推理下半场释放算力潜能,如何重塑?
在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。...
