如何用GPUStack和OpenClaw搭建一个永不停止的本地AI助手?
摘要:关注🌟⌈GPUStack⌋ 💻一起学习 AI、GPU 管理与大模型相关技术实践。 这两年,越来越多团队把 AI 接入了日常工作流。 但很快,一个现实问题摆在了面前: 模型用得越
关注🌟⌈GPUStack⌋ 💻
一起学习 AI、GPU 管理与大模型相关技术实践。
这两年,越来越多团队把 AI 接入了日常工作流。
但很快,一个现实问题摆在了面前:
模型用得越多,Token 花得越快,成本和心理压力也随之上涨。
很多人一边依赖 AI 提效,一边又不得不「省着用」「少让它多想」。
到最后,AI 反而成了一种被精打细算的消耗品。
如果 AI 能跑在自己的 GPU 上,
不按 Token 计费、可以随时对话、长期运行在协作工具里,
它才更像一个真正的“工作助手”。
基于 GPUStack 提供的本地模型能力,结合 OpenClaw(支持 WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台) 与飞书,
本文将一步步演示如何构建一个可真实使用、可持续运行、几乎不再关心 Token 消耗的本地 AI 助手。
📌 本文内容
使用 GPUStack 部署模型
飞书机器人应用创建与权限配置
OpenClaw 的安装、配置与关键注意事项
飞书侧首次授权与连通性测试
实战示例:让小助手给 GPUStack 项目标星
小助手内置指令说明
OpenClaw 实用命令与资源入口
一、使用 GPUStack 部署模型并准备接入信息
在接入 OpenClaw 之前,我们需要先在 GPUStack 中完成模型部署,并获取模型服务的访问信息。
本节将以 Qwen3.5-35B-A3B 为例,演示从
自定义推理后端 → 部署模型 → 获取接入信息 的完整流程。
1. 准备环境与版本说明
GPUStack 版本:v2.0.3
自定义推理后端镜像:
swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:qwen3_5
模型权重:Qwen/Qwen3.5-35B-A3B
⚠️ OpenClaw 对模型上下文窗口有要求:
最小 16K,建议 128K 及以上。
2. 配置自定义推理后端(vLLM)
在 GPUStack 控制台中,进入:
「推理后端」→「编辑 vLLM」→「添加版本」
3. 部署 Qwen3.5-35B-A3B 模型
参数示例:
--tensor-parallel-size=2
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--speculative-config '{"method": "mtp", "num_speculative_tokens": 1}'
如果遇到:
Error 803: system has unsupported display driver / cuda driver combination
可尝试添加环境变量:
LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu
4. 获取 GPUStack 模型接入信息
需要记录以下三项:
API Base URL
Model ID
API Key(在 GPUStack 中自行创建)
二、飞书应用配置
1. 账号说明
飞书 个人账号无法创建机器人应用。
需要使用 企业 / 组织身份,但个人用户也可以免费创建。
