SGLang

欢迎访问ZJ新闻社SEO

专题：SGLang

共8篇相关文章

沐曦C500上如何高效管理GPUStack的vLLM和SGLang推理服务及生产化运维？
在当前大模型推理逐步走向生产化的背景下，如何在多样化硬件环境上高效、稳定地管理推理服务，在工程落地中尤其关键。尤其是在国产 GPU 场景中，不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升，单纯依赖手工部署或脚本维护，往往难以兼顾效率...
4天前7阅读
如何私有部署Gemma 4并实现文本图像视频音频处理及调用相关工具？
随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期，Gemma 4 正式发布，模型能力对标 Qwen 3.5，在推理能力、多模态支持以及工具调用等方面都有明显提升。以下为 Gemma...
10天前8阅读
阿里PPU加入GPUStack，国产算力版图统一调度里程碑，这难道不是异构算力的重磅突破吗？
GPUStack 2.1.0 正式新增对阿里 PPU（平头哥）的支持，在 PPU 平台上实现 vLLMSGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。在 NVIDIA、AMD、华为...
20天前4阅读
3.28北京Meetup，GPUStack、SGLang、MiniCPM核心成员，深度对话AI Infra改如何进行？
会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服...
20天前4阅读
本周六北京SGLang Meetup，关于AI Infra的深度对话，你将赴约吗？
会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服...
20天前4阅读
北京SGLang Meetup倒计时1天，这场AI Infra深度对话你期待吗？
会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服...
20天前6阅读
AI推理融资背后，系统化与治理趋势是否显现？
最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 亿美元：图源：Inferact SGLang 团队也成立了 Rad...
1月前5阅读
GPUStack v2开源后，大模型推理下半场释放算力潜能，如何重塑？
在大模型推理的下半场，GPUStack v2 不再是简单的模型服务平台，而是高性能推理生态的协调者与赋能者。...
1月前5阅读