GPUStack v0.6更新,有哪些新功能让你想试试?

摘要:GPUStack 是一个100%开源的模型服务平台,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Em
GPUStack 是一个100%开源的模型服务平台,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box(基于 llama.cpp 与 stable-diffusion.cpp)等多种推理引擎与推理引擎多版本并行,支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性,提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架,是企业建设模型服务平台的理想选择。 GPUStack 一直致力于以最简单易用的方式,帮助用户快速纳管异构 GPU 资源并运行所需的 AI 模型,从而支撑 RAG、AI Agents 以及其他生成式 AI 落地场景。为用户打造绝佳的使用体验是我们始终坚持的目标。最新发布的 v0.6 是迄今为止最重磅的版本,全方位完善了平台的整体功能、性能、稳定性和用户使用体验。 GPUStack v0.6 版本的核心更新包括: vLLM 多机分布式推理:提供生产级的多机分布式推理能力,支撑 DeepSeek R1 / V3 等单机 GPU 资源无法运行的超大参数量模型。 昇腾 MindIE 支持:为昇腾 910B 和 310P 用户提供内置的 MindIE 推理引擎支持,以提供最佳的模型推理表现。 模型兼容性检测:提供对模型是否支持部署的兼容性检测,目前提供对模型架构支持、操作系统兼容、资源可用性、本地路径可用性等依赖的实时检测,后续还会持续加入更多检测条件,提供更加友好的模型部署体验。 模型下载管理:支持管理已下载的模型文件、支持以不占用 GPU 资源分配为前提,发起单机/多机的模型下载任务、支持将本地路径的模型文件添加到 UI 中进行统一管理。 模型故障自动恢复:支持模型在发生故障时的自动恢复机制。 端口暴露优化:优化需要暴露的端口范围,API 入口到模型实例的推理请求统一经过代理转发,不再需要暴露模型实例端口,降低 96% 以上的端口暴露,并支持用户自定义。 增强国际化支持:GPUStack 用户遍布全球上百个国家和地区,本次 GPUStack 社区用户贡献了俄语和日语支持,为不同语言的用户提供更加友好的使用体验,加速推进 GPUStack 的全球化应用。 UI / UX 全方位优化:全方位的 UI / UX 优化,逐帧打磨,打造业界最好用的模型推理平台。 这一版本总共包含上百项增强、修复、稳定性改进和用户体验优化,为用户的生产落地提供强大的场景支持。 有关 GPUStack 的详细信息,可以访问: GitHub 仓库地址: https://github.com/gpustack/gpustack GPUStack 用户文档: https://docs.gpustack.ai 重点特性介绍 vLLM 多机分布式推理 随着大语言模型的参数规模不断提升,传统单机 GPU 资源已难以满足推理部署的实际需求。为此,GPUStack 在当前版本中正式支持生产级的 vLLM 多机分布式推理能力。通过跨主机部署,将模型按张量或按层切分,分布到多个节点运行,从而实现对超大参数模型(如 DeepSeek R1、DeepSeek V3 等)的推理支持。 当前,GPUStack 对以下两类推理引擎提供分布式支持: llama-box:异构分布式,适用于研发测试环境 ​ • 支持 Linux、Windows 和 macOS 操作系统; ​ • 允许不同操作系统、不同品牌、不同规格的 GPU 混合实现异构分布式推理; ​ • 可在桌面或轻量服务器上快速构建异构分布式推理环境; ​ • 更适用于日常研发、模型验证、兼容性测试等场景。 vLLM:同构分布式,面向生产环境 ​ • 支持在多台 Linux 服务器之间进行同构分布式推理; ​ • 要求参与节点的硬件环境基本一致(如 GPU 型号、数量、显存); ​ • 支持张量并行和流水线并行,具备良好的推理吞吐能力; ​ • 适合生产环境下对高并发、低延迟模型服务的部署需求。 通过 vLLM 和 llama-box 的分布式推理能力,GPUStack 能够覆盖从模型研发验证到大规模生产部署的完整流程。
阅读全文