SmolVLA如何实现让机器人更懂看听说做的轻量化?
摘要:🧭 TL;DR 今天,我们介绍了 SmolVLA,这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型,专为机器人领域设计,并且可以在消费级硬件上运行。 仅使用开源社区共享的数
🧭 TL;DR
今天,我们介绍了 SmolVLA,这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型,专为机器人领域设计,并且可以在消费级硬件上运行。
仅使用开源社区共享的数据集进行预训练,数据集标签为 lerobot。
SmolVLA-450M 的表现优于许多更大的 VLA 模型,并且在仿真任务 (LIBERO,Meta-World) 和实际任务 (SO100, SO101) 上超过了强基线模型,如 ACT。
支持 异步推理 ,可提供 30% 更快的响应 和 2 倍的任务吞吐量。
相关链接:
用于训练和评估 SO-100/101 的硬件: https://github.com/TheRobotStudio/SO-ARM100
基础模型: https://huggingface.co/lerobot/smolvla_base
论文: https://huggingface.co/papers/2506.01844
📚 目录
🧭 TL;DR
📖 介绍
🤖 认识 SmolVLA!
🚀 如何使用 SmolVLA?
安装
微调预训练模型
从头训练
🧠 方法
主要架构
视觉 - 语言模型 (VLM)
动作专家: 流匹配变换器
高效性和稳健性的设计选择
视觉标记减少
通过跳过层来加速推理
交替交叉自注意力
异步推理
📦 社区数据集
改进任务标注
标准化摄像头视角
📊 结果
✅ 结论
📣 行动号召
介绍
在过去的几年里,Transformers 技术推动了人工智能的显著进展,从能够进行类人推理的语言模型到理解图像和文本的多模态系统。然而,在实际的机器人领域,进展则相对较慢。机器人仍然难以在各种物体、环境和任务之间进行有效的泛化。这一有限的进展源于 缺乏高质量、多样化的数据,以及缺乏能够 像人类一样在物理世界中进行推理和行动 的模型。
为应对这些挑战,近期的研究开始转向 视觉 - 语言 - 动作 (VLA) 模型,旨在将感知、语言理解和动作预测统一到一个架构中。VLA 模型通常以原始视觉观测和自然语言指令为输入,输出相应的机器人动作。尽管前景广阔,但大部分 VLA 的最新进展仍然被封闭在使用大规模私人数据集训练的专有模型背后,通常需要昂贵的硬件配置和大量的工程资源。因此,更广泛的机器人研究社区在复制和扩展这些模型时面临着重大的障碍。
SmolVLA 填补了这一空白,提供了一个开源、高效的轻量级 VLA 模型,可以在 仅使用公开可用数据集和消费级硬件 的情况下进行训练。通过发布模型权重并使用非常经济的开源硬件,SmolVLA 旨在实现视觉 - 语言 - 动作模型的普及,并加速朝着通用机器人代理的研究进展。
图 1: SmolVLA 在不同任务变体下的对比。从左到右: (1) 异步的拾取 - 放置立方体计数,(2) 同步的拾取 - 放置立方体计数,(3) 在扰动下的拾取 - 放置立方体计数,(4) 在真实世界 SO101 上的乐高积木拾取 - 放置任务泛化。
认识 SmolVLA!
SmolVLA-450M 是我们开源的、功能强大的轻量级视觉 - 语言 - 动作 (VLA) 模型。它具备以下特点:
足够小,可以在 CPU 上运行,单个消费级 GPU 上训练,甚至可以在 MacBook 上运行!
训练使用的是公开的、社区共享的机器人数据
发布时附带完整的训练和推理方案
可以在非常经济的硬件上进行测试和部署 (如 SO-100、SO-101、LeKiwi 等)
受到大语言模型 (LLMs) 训练范式的启发,SmolVLA 先在通用的操控数据上进行预训练,随后进行特定任务的后训练。在架构上,它将 Transformers 与 流匹配解码器 相结合,并通过以下设计选择优化速度和低延迟推理:
跳过视觉模型的一半层,提升推理速度和减小模型尺寸
交替使用自注意力和交叉注意力模块
使用更少的视觉标记
利用更小的预训练视觉 - 语言模型 (VLM)
尽管使用的训练样本不到 30k, 比其他 VLA 模型少了一个数量级 , 但 SmolVLA 在仿真和真实世界中的表现 与更大的模型相当,甚至超过它们。
为了让实时机器人更加易用,我们引入了异步推理堆栈。该技术将机器人执行动作的方式与理解它们所看到和听到的内容分开。由于这种分离,机器人可以在快速变化的环境中更快速地响应。
图 2: SmolVLA 以多个摄像头拍摄的 RGB 图像序列、机器人当前的传感运动状态以及自然语言指令为输入。
