GPUStack v0.6更新，有哪些新功能让你想试试？

摘要：GPUStack 是一个100%开源的模型服务平台，支持 Linux、Windows 和 macOS，支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群，支持 LLM、多模态、Em

GPUStack 是一个100%开源的模型服务平台，支持 Linux、Windows 和 macOS，支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群，支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型，支持 vLLM、MindIE、llama-box（基于 llama.cpp 与 stable-diffusion.cpp）等多种推理引擎与推理引擎多版本并行，支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性，提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架，是企业建设模型服务平台的理想选择。 GPUStack 一直致力于以最简单易用的方式，帮助用户快速纳管异构 GPU 资源并运行所需的 AI 模型，从而支撑 RAG、AI Agents 以及其他生成式 AI 落地场景。为用户打造绝佳的使用体验是我们始终坚持的目标。最新发布的 v0.6 是迄今为止最重磅的版本，全方位完善了平台的整体功能、性能、稳定性和用户使用体验。 GPUStack v0.6 版本的核心更新包括： vLLM 多机分布式推理：提供生产级的多机分布式推理能力，支撑 DeepSeek R1 / V3 等单机 GPU 资源无法运行的超大参数量模型。昇腾 MindIE 支持：为昇腾 910B 和 310P 用户提供内置的 MindIE 推理引擎支持，以提供最佳的模型推理表现。模型兼容性检测：提供对模型是否支持部署的兼容性检测，目前提供对模型架构支持、操作系统兼容、资源可用性、本地路径可用性等依赖的实时检测，后续还会持续加入更多检测条件，提供更加友好的模型部署体验。模型下载管理：支持管理已下载的模型文件、支持以不占用 GPU 资源分配为前提，发起单机/多机的模型下载任务、支持将本地路径的模型文件添加到 UI 中进行统一管理。模型故障自动恢复：支持模型在发生故障时的自动恢复机制。端口暴露优化：优化需要暴露的端口范围，API 入口到模型实例的推理请求统一经过代理转发，不再需要暴露模型实例端口，降低 96% 以上的端口暴露，并支持用户自定义。增强国际化支持：GPUStack 用户遍布全球上百个国家和地区，本次 GPUStack 社区用户贡献了俄语和日语支持，为不同语言的用户提供更加友好的使用体验，加速推进 GPUStack 的全球化应用。 UI / UX 全方位优化：全方位的 UI / UX 优化，逐帧打磨，打造业界最好用的模型推理平台。这一版本总共包含上百项增强、修复、稳定性改进和用户体验优化，为用户的生产落地提供强大的场景支持。有关 GPUStack 的详细信息，可以访问： GitHub 仓库地址: https://github.com/gpustack/gpustack GPUStack 用户文档: https://docs.gpustack.ai 重点特性介绍 vLLM 多机分布式推理随着大语言模型的参数规模不断提升，传统单机 GPU 资源已难以满足推理部署的实际需求。为此，GPUStack 在当前版本中正式支持生产级的 vLLM 多机分布式推理能力。通过跨主机部署，将模型按张量或按层切分，分布到多个节点运行，从而实现对超大参数模型（如 DeepSeek R1、DeepSeek V3 等）的推理支持。当前，GPUStack 对以下两类推理引擎提供分布式支持： llama-box：异构分布式，适用于研发测试环境 • 支持 Linux、Windows 和 macOS 操作系统； • 允许不同操作系统、不同品牌、不同规格的 GPU 混合实现异构分布式推理； • 可在桌面或轻量服务器上快速构建异构分布式推理环境； • 更适用于日常研发、模型验证、兼容性测试等场景。 vLLM：同构分布式，面向生产环境 • 支持在多台 Linux 服务器之间进行同构分布式推理； • 要求参与节点的硬件环境基本一致（如 GPU 型号、数量、显存）； • 支持张量并行和流水线并行，具备良好的推理吞吐能力； • 适合生产环境下对高并发、低延迟模型服务的部署需求。通过 vLLM 和 llama-box 的分布式推理能力，GPUStack 能够覆盖从模型研发验证到大规模生产部署的完整流程。

GPUStack v0.6更新，有哪些新功能让你想试试？

相关推荐