GPUStack

欢迎访问ZJ新闻社SEO

专题：GPUStack

共18篇相关文章

沐曦C500上如何高效管理GPUStack的vLLM和SGLang推理服务及生产化运维？
在当前大模型推理逐步走向生产化的背景下，如何在多样化硬件环境上高效、稳定地管理推理服务，在工程落地中尤其关键。尤其是在国产 GPU 场景中，不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升，单纯依赖手工部署或脚本维护，往往难以兼顾效率...
4天前8阅读
如何私有部署Gemma 4并实现文本图像视频音频处理及调用相关工具？
随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期，Gemma 4 正式发布，模型能力对标 Qwen 3.5，在推理能力、多模态支持以及工具调用等方面都有明显提升。以下为 Gemma...
10天前9阅读
vLLM新参数performance-mode提升效果如何？Qwen3.5实测！
本文基于 Qwen3.5 在 H100H200 上的实测，分析 vLLM performance-mode 的实际作用。结果表明，它并非独立提速手段，而是结合量化、cache 等优化，用于收敛低延迟或高吞吐目标，主要价值在于缩小调优范围。...
10天前8阅读
vLLM Ascend 是不是昇腾上最优的 EmbeddingReranker 推理方案？
在昇腾（Ascend）生态中，vLLM 等推理引擎在生成类任务中表现出色，已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下，mis-tei 作为专用推理组件，同样提供了高效且更贴合场景的能力。 mis-tei...
13天前5阅读
阿里PPU加入GPUStack，国产算力版图统一调度里程碑，这难道不是异构算力的重磅突破吗？
GPUStack 2.1.0 正式新增对阿里 PPU（平头哥）的支持，在 PPU 平台上实现 vLLMSGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。在 NVIDIA、AMD、华为...
20天前4阅读
3.28北京Meetup，GPUStack、SGLang、MiniCPM核心成员，深度对话AI Infra改如何进行？
会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服...
20天前4阅读
本周六北京SGLang Meetup，关于AI Infra的深度对话，你将赴约吗？
会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服...
20天前4阅读
北京SGLang Meetup倒计时1天，这场AI Infra深度对话你期待吗？
会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服...
20天前6阅读
如何将GPUStack离线部署镜像适配国内加速源？
通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件，动态生成对应的 GPUStack 容器镜像列表，并提供镜像准备与离线部署参考命令。...
1月前6阅读
如何详细部署GPUStack Windows在WSL2上？
在 WSL2（Windows Subsystem for Linux）中配置 NVIDIA GPU 并部署 GPUStack。...
1月前5阅读
DeepSeek-V3.2如何实现推理性能提升161%的优化秘诀？
相比于未优化的 vLLM 基线，经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了 57.8% 至 153.6% 的吞吐量提升。...
1月前3阅读
GPUStack 自定义后端系列，MinerU 能否打造顶级 PDF 解析服务？
GPUStack v2 自定义后端功能实战！本文以 MinerU 为例，手把手教你快速接入并运行超强 PDF 解析工具，轻松构建私有化文档提取服务。...
1月前5阅读
如何用n8n接入本地模型，零成本打造AI资讯助手？
通过 n8n 接入 GPUStack 本地模型，构建一个自动抓取 RSS、生成摘要并邮件推送的 AI 资讯助手。全流程本地运行，零 API 成本，数据不出域，快速体验私有化 AI 自动化。...
1月前5阅读
如何用GPUStack和OpenClaw搭建一个永不停止的本地AI助手？
关注&#127775;⌈GPUStack⌋ &#128187;一起学习 AI、GPU 管理与大模型相关技术实践。这两年，越来越多团队把 AI 接入了日常工作流。但很快，一个现实问题摆在了面前：模型用得越...
1月前4阅读
如何从零部署AgentCPM，一键集成DeepResearch能力？
本文基于 AI Max 395（搭载 AMD Ryzen AI Max+ 395 处理器）硬件平台，完整记录了通过 GPUStack 开源集群管理平台，本地部署 AgentCPM 系列模型并接入 DeepResearch...
1月前3阅读