GPUStack 是一个开源的GPU加速库，旨在为开发者提供简单易用的接口来利用GPU进行并行计算。它通常用于科学计算、机器学习、图像处理等领域，允许用户在不深入GPU编程细节的情况下，利用GPU的强大计算能力。以下是关于GPUStack的一些基本信息：1

摘要：通过 GPUStack 提供高效的模型部署与管理能力，并将模型接入 MaxKB，即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。

随着企业内部 AI 应用越来越多，越来越多团队开始关注两个核心问题：如何高效管理和部署本地大模型如何快速构建企业知识库与 AI Agent 如果你同时在寻找这两个问题的解决方案，那么 GPUStack + MaxKB 的组合非常值得尝试。 GPUStack：专注于 GPU 资源管理与模型部署，支持多节点集群和多模型服务。 MaxKB：一个开源的企业级知识库与 AI 应用平台，可以快速构建知识库问答和 AI Agent。通过将 GPUStack 提供的模型服务接入 MaxKB，就可以非常方便地构建一个可落地的企业 AI 知识助手。本文将从零开始，完整演示整个流程。 📌 本文内容部署最新 GPUStack v2.1.0 在 GPUStack 中部署所需模型获取 GPUStack 模型接入信息部署 MaxKB 在 MaxKB 中接入 GPUStack 模型实战示例：制作 GPUStack 文档知识库安装 GPUStack v2.1.0 1. 安装 GPUStack Server sudo docker run -d --name gpustack-server \ --restart unless-stopped \ -p 80:80 \ -v gpustack-data:/var/lib/gpustack \ -v /data/gpustack_cache:/var/lib/gpustack/cache \ gpustack/gpustack:v2.1.0 \ --bootstrap-password "123" \ --debug 执行如上启动命令后，打开浏览器访问： http://your_host_ip 即可进入 GPUStack UI，用户名密码：admin/123。 2. 创建集群 GPUStack 以集群（Cluster）为单位管理 Worker 节点。新部署的 GPUStack Server 会提示创建第一个集群，我们点击： Create Your First Cluster 按照界面提示完成创建即可。也可以在侧边栏进入 Clusters 页面，点击 Add Cluster 手动创建。 3. 添加 Worker 创建完集群后，系统会提示 Add Worker。我们按照界面提示继续操作即可。也可以在侧边栏 Workers 页面点击 Add Worker 进行添加。执行引导界面中的检查命令：如果驱动和容器工具安装正确，将看到两个 OK。如果显示 not configured，可以点击提示中的链接查看依赖说明，并按实际环境安装缺失组件。 Model Cache Volume Mount：将该目录挂载到模型缓存目录 /var/lib/gpustack/cache。 GPUStack Data Volume：将该目录挂载到数据目录 /var/lib/gpustack。随后执行 Worker 启动命令： sudo docker run -d --name gpustack-worker \ -e "GPUSTACK_RUNTIME_DEPLOY_MIRRORED_NAME=gpustack-worker" \ -e "GPUSTACK_TOKEN=gpustack_7b42996d3f5571d5_8181f986537c100369eaa2dfcf6d6359" \ --restart=unless-stopped \ --privileged \ --network=host \ --volume /var/run/docker.sock:/var/run/docker.sock \ --volume gpustack-worker-data:/var/lib/gpustack \ --volume /data/gpustack_cache:/var/lib/gpustack/cache \ --runtime nvidia \ gpustack/gpustack:v2.1.0 \ --server-url http://192.168.50.14 \ --worker-ip 192.168.50.14 在 GPUStack 中部署模型点击侧边栏 Deployments 打开模型部署页面。如果当前没有部署模型，页面中间会出现 Deploy Now 按钮。点击该按钮进入 Model Catalog 页面，选择所需模型并按照提示部署即可。更多部署方式可以查看右上角 Deploy Model 菜单。本文示例部署以下三个模型： Qwen3-Reranker-4B Qwen3-Embedding-4B Qwen3.5-35B-A3B 部署时可根据实际情况调整显存占用比例。部署 Qwen3-Reranker-4B 部署完成后，可以在 Playground 中进行测试。部署 Qwen3-Embedding-4B 部署完成后可在 Playground 中测试。部署 Qwen3.5-35B-A3B 这里额外设置 PYPI_PACKAGES_INSTALL 环境变量，用于升级 transformers 库。部署完成后在 Playground 中测试。获取 GPUStack 模型接入信息打开侧边栏 Routes 页面。点击 Route 右侧三个点菜单，选择： API Access Info 记录以下信息： Base URL Model Name API Key 示例： Base URL: http://192.168.50.14/v1 Model Name: qwen3.5-35b-a3b qwen3-reranker-4b qwen3-embedding-4b API Key: gpustack_xxxxxxxxxxxxxxxxx API Key 可以按照界面提示自行创建。部署 MaxKB MaxKB 支持 Docker 一键部署： docker run -d --name=maxkb --restart=always -p 8080:8080 -v ~/.maxkb:/opt/maxkb 1panel/maxkb 默认账号密码： admin / MaxKB@123.. 首次登录会提示修改密码，按照提示修改即可。在 MaxKB 中接入 GPUStack 模型在 MaxKB 顶部导航栏选择 Model。点击右上角 Add Model。注意： API URL 和 API Key 只有在 Base Model 输入并回车后才会显示。按照同样方式添加： qwen3-reranker-4b qwen3-embedding-4b 其中 qwen3-reranker-4b 需要开启通用代理（Generic Proxy）：原因是 MaxKB 使用的是： /v2/rerank API 端点。配置完成后如下：实战示例：制作 GPUStack 文档知识库打开顶部 Knowledge 页面，点击 Create 创建知识库，这里选择 Web Knowledge。填入 GPUStack 文档地址，MaxKB 会自动抓取并解析页面内容。抓取完成后如下：创建 AI Agent 进入 Agent 页面。点击 Create 创建 Agent。配置完成后点击 Publish 发布 Agent。发布成功后即可开始对话。对话演示打开对话界面：示例效果： 🙌 加入 GPUStack 社区如果你已经开始使用 GPUStack，或者正在探索本地大模型 / GPU 资源管理 / AI Infra，欢迎加入我们的社区交流群，一起交流实践经验、踩坑记录与最佳方案。 👉 社区入口（持续更新） https://github.com/gpustack/gpustack/blob/main/docs/assets/wechat-group-qrcode.jpg

相关推荐