双臂具身VLA从零起步，其起源与发展现状是怎样的？

摘要：作者：SkyXZ CSDN：SkyXZ～-CSDN博客博客园：SkyXZ - 博客园一、从大语言模型到具身智能的范式跃迁过去几年，LLM模型和VLM模型发展得非常快。尤其是在2020年ChatGPT发布GPT-3之后，大家越来越清楚地

作者：SkyXZ CSDN：SkyXZ～-CSDN博客博客园：SkyXZ - 博客园一、从大语言模型到具身智能的范式跃迁过去几年，LLM模型和VLM模型发展得非常快。尤其是在2020年ChatGPT发布GPT-3之后，大家越来越清楚地看到，模型在语言理解、知识调用、常识推理，甚至跨任务泛化上，已经具备了很强的能力。也正因如此，一个很自然的问题开始出现：如果模型已经这么“聪明”，那它能不能进一步走出数字世界，真正去理解环境、操作物体、完成任务？而目前传统的机械臂控制通常遵循分层式技术路线，其核心思想是将“感知—规划—控制”拆解为多个相对独立的模块逐级求解。在这一框架下，系统首先依据环境感知结果和人工设定目标完成任务级决策，然后通过正运动学与逆运动学建立机械臂关节空间与末端执行器之间的映射关系，再结合路径规划、轨迹生成与反馈控制，最终将高层目标转化为可执行的关节位置、速度或力矩指令。其中，正运动学用于根据关节状态求解末端位姿，逆运动学则用于由目标位姿反推机械臂关节配置；在此基础上，系统通常还需要引入运动规划算法来避障、满足运动学约束，并通过 PID、阻抗控制或模型预测控制等底层方法实现稳定执行。这样的分层控制体系在结构化环境和预定义任务中具有较高的稳定性与可解释性，也是目前机械臂控制的主流范式。这种方法在结构化工业场景中具有较高的稳定性与可解释性，但也高度依赖精确建模、人工规则和任务先验。当任务逐渐从固定工位抓取扩展到开放环境中的语言交互、复杂操作与长程任务执行时，传统分层控制框架开始暴露出模块割裂、误差累积以及泛化能力不足等问题。不过LLM 和 VLM 虽然已经拥有了很强的“理解能力”，但它们本质上仍然主要工作在文本和图像构成的数字空间里，缺少一个能够与真实世界持续交互的“身体”。正是在这样的背景下，有些学者开始思考：能不能把视觉、语言和动作统一到同一个模型框架中，让模型不仅能“看懂”和“听懂”，还能进一步“做出来”？于是VLA（Vision-Language-Action）模型自然而然的成为了大家研究的载体，VLA模型在数学架构上可以被形式化地定义为一个端到端的马尔可夫决策过程（MDP）映射策略 $ \pi(a_t \mid o_t, l) $。在该表达式中，$$o_t$$代表系统在 $$t$$时刻接收到的高维观测数据，这些数据通常由多视角的RGB图像序列和机器人本体感受状态（Proprioceptive states，如关节角度、末端执行器位姿等）组成；$$l$$代表来自人类用户的自然语言高阶指令；而$$a_t $$则是模型直接输出的底层机器运动控制命令序列。通过将视觉图像和文本指令编码为连续或离散的上下文特征向量，并自回归或通过扩散过程生成动作张量，VLA实现了从高层认知规划到低层物理执行的闭环。与此同时，随着任务需求从简单的桌面抓取逐步扩展到家庭服务、工业装配等更复杂场景，具身智能的硬件载体也在持续演化：从早期以 UR5、Franka 为代表的单臂系统，逐渐过渡到以 ALOHA、双臂 ARX 乃至人形机器人为代表的高自由度双臂协作平台。双臂系统的引入并不只是执行器数量的增加，更意味着动作空间维度、协同控制复杂度以及接触规划难度的显著提升。与单臂操作相比，双臂任务不仅要求机器人分别完成每只手臂的运动控制，还要求其在双手之间建立稳定的时序配合、力学协调与空间协同关系。正因如此，双臂具身任务也逐渐成为检验 VLA 是否真正具备复杂物理交互能力的重要场景。二、VLA的起源与早期双臂协作困境：RT系列的开创与局限目前对大规模VLA模型的探索，最早可追溯至Google DeepMind在2022年推出的Robotic Transformer（RT）系列模型。RT-1(RT-1: Robotics Transformer for Real-World Control at Scale)的问世确立了基于Transformer架构的大规模真实世界物理控制范式，该模型通过吸收超过700个任务的13万个真实物理互动片段，首次证明了可以通过单一的大容量神经网络统一视觉特征、语言指令和机器人动作序列输出。而随后发布的RT-2(RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control)模型更进一步，确立了现代VLA的基本范式，他将具身控制策略与互联网级视觉-语言预训练模型（VLM）进行了深度融合，通过联合微调互联网规模的图文数据与机器人轨迹数据，赋予了机器人强大的语义推理与跨环境泛化能力。

双臂具身VLA从零起步，其起源与发展现状是怎样的？

相关推荐