如何用GPUStack和OpenClaw搭建一个永不停止的本地AI助手？

摘要：关注&#127775;⌈GPUStack⌋ &#128187;一起学习 AI、GPU 管理与大模型相关技术实践。这两年，越来越多团队把 AI 接入了日常工作流。但很快，一个现实问题摆在了面前：模型用得越

关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。这两年，越来越多团队把 AI 接入了日常工作流。但很快，一个现实问题摆在了面前：模型用得越多，Token 花得越快，成本和心理压力也随之上涨。很多人一边依赖 AI 提效，一边又不得不「省着用」「少让它多想」。到最后，AI 反而成了一种被精打细算的消耗品。如果 AI 能跑在自己的 GPU 上，不按 Token 计费、可以随时对话、长期运行在协作工具里，它才更像一个真正的“工作助手”。基于 GPUStack 提供的本地模型能力，结合 OpenClaw（支持 WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台）与飞书，本文将一步步演示如何构建一个可真实使用、可持续运行、几乎不再关心 Token 消耗的本地 AI 助手。 📌 本文内容使用 GPUStack 部署模型飞书机器人应用创建与权限配置 OpenClaw 的安装、配置与关键注意事项飞书侧首次授权与连通性测试实战示例：让小助手给 GPUStack 项目标星小助手内置指令说明 OpenClaw 实用命令与资源入口一、使用 GPUStack 部署模型并准备接入信息在接入 OpenClaw 之前，我们需要先在 GPUStack 中完成模型部署，并获取模型服务的访问信息。本节将以 Qwen3.5-35B-A3B 为例，演示从自定义推理后端 → 部署模型 → 获取接入信息的完整流程。 1. 准备环境与版本说明 GPUStack 版本：v2.0.3 自定义推理后端镜像： swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:qwen3_5 模型权重：Qwen/Qwen3.5-35B-A3B ⚠️ OpenClaw 对模型上下文窗口有要求：最小 16K，建议 128K 及以上。 2. 配置自定义推理后端（vLLM）在 GPUStack 控制台中，进入：「推理后端」→「编辑 vLLM」→「添加版本」 3. 部署 Qwen3.5-35B-A3B 模型参数示例： --tensor-parallel-size=2 --mm-encoder-tp-mode data --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --speculative-config '{"method": "mtp", "num_speculative_tokens": 1}' 如果遇到： Error 803: system has unsupported display driver / cuda driver combination 可尝试添加环境变量： LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu 4. 获取 GPUStack 模型接入信息需要记录以下三项： API Base URL Model ID API Key（在 GPUStack 中自行创建）二、飞书应用配置 1. 账号说明飞书个人账号无法创建机器人应用。需要使用企业 / 组织身份，但个人用户也可以免费创建。

如何用GPUStack和OpenClaw搭建一个永不停止的本地AI助手？

相关推荐