专题:GPU集群
共10篇相关文章

如何私有部署Gemma 4并实现文本图像视频音频处理及调用相关工具?
随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用等方面都有明显提升。 以下为 Gemma...

vLLM Ascend 是不是昇腾上最优的 EmbeddingReranker 推理方案?
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei...

阿里PPU加入GPUStack,国产算力版图统一调度里程碑,这难道不是异构算力的重磅突破吗?
GPUStack 2.1.0 正式新增对阿里 PPU(平头哥)的支持,在 PPU 平台上实现 vLLMSGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。 在 NVIDIA、AMD、华为...

如何将GPUStack离线部署镜像适配国内加速源?
通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件,动态生成对应的 GPUStack 容器镜像列表,并提供镜像准备与离线部署参考命令。...

如何配置NVIDIA Container Runtime并运行GPUStack容器?
GPUStack 是一个设计用于运行大模型的开源 GPU 集群管理器,提供私有部署的大模型服务,支持大语言模型、Embedding 文本嵌入模型、Reranker 重排序模型、Vision 多模态模型等各种模型。它可以聚合不同平台(如 Ap...

GPUStack v0.5的模型Catalog和图生图功能,是不是多维优化后提升了产品能力和使用体验?
GPUStack 是一个专为运行 AI 模型设计的开源 GPU 集群管理器,致力于支持基于任何品牌的异构 GPU 构建统一管理的算力集群。无论这些 GPU 运行在 Apple Mac、Windows PC 还是 Linux 服务器上,GPU...

GPUStack v0.6更新,有哪些新功能让你想试试?
GPUStack 是一个100%开源的模型服务平台,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Em...

GPUStack v2.1如何实现从模型推理到开源AI基础设施平台的全面演进?
随着大模型进入生产环境,AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力,为企业构建统一、高性能的AI模型服务平台...

GPUStack 是一个开源的GPU加速库,旨在为开发者提供简单易用的接口来利用GPU进行并行计算。它通常用于科学计算、机器学习、图像处理等领域,允许用户在不深入GPU编程细节的情况下,利用GPU的强大计算能力。以下是关于GPUStack的一些基本信息:1
通过 GPUStack 提供高效的模型部署与管理能力,并将模型接入 MaxKB,即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。...

如何快速搭建45分钟私有MaaS平台及生产级Qwen3模型服务?
今天凌晨,阿里通义团队正式发布了 Qwen3,涵盖六款 Dense 模型(0.6B、1.7B、4B、8B、14B、32B)和两款 MoE 模型(30B-A3B 和 235B-A22B)。其中的旗舰模型 Qwen3-235B-A22B 在代码...
