Skip to content

具身智能与 VLA(视觉-语言-动作模型)

大模型从「在屏幕里说话」走向「在物理世界行动」——具身智能(Embodied AI)让 AI 拥有身体,VLA(Vision-Language-Action)模型把「看 + 懂 + 动」端到端打通。这是 2024–2025 最受关注的前沿之一,也是机器人与基础模型交汇的方向。Agent 基础见 Agent 基础,多模态见 VLM 架构

注:本页是前沿方向的概览,目标是帮你建立框架性认知,能在面试中讲清「具身智能在解决什么、难在哪」。

一、什么是具身智能?

具身智能指 AI 拥有物理或虚拟的「身体」,通过与环境交互来感知和行动,而不只是处理文本。核心区别于纯语言模型:

纯 LLM / Agent具身智能
交互对象文本、数字工具物理世界(或仿真环境)
感知文本输入视觉、触觉、本体感受等传感器
行动输出文本/调 API输出电机控制/动作
反馈无/弱物理后果(抓起来了吗、撞到了吗)

典型载体:机器人手臂、人形机器人、自动驾驶、无人机。

二、VLA 模型:看-懂-动端到端

VLA(Vision-Language-Action) 是具身智能的核心模型范式:输入视觉(摄像头)+ 语言指令(「把红色杯子放到盘子里」),直接输出动作(机械臂的关节角度/末端位姿序列)。

摄像头画面  ┐
            ├──► VLA 模型 ──► 动作序列(关节角度/夹爪开合/移动)
语言指令    ┘                    ↓
                          执行 → 环境变化 → 再观测(闭环)
  • 本质是把 VLM 的「视觉+语言→文本」扩展成「视觉+语言→动作」——动作也被当成一种可以预测的「token」(动作离散化/分词)或连续输出。
  • 代表方向:Google 的 RT 系列、开源的 OpenVLA、各家人形机器人基础模型。

三、为什么大模型能赋能机器人?

传统机器人是「为每个任务写专门程序」,泛化极差。大模型带来三个改变:

  1. 常识与语言理解:能听懂自然语言指令、利用预训练的世界常识(「杯子易碎要轻拿」)。
  2. 视觉泛化:借 VLM 的视觉理解,认得没见过的物体和场景。
  3. 任务泛化:一个模型做多种任务,而非一任务一程序——「机器人界的基础模型」愿景。

四、核心难点(重点)

难点说明
数据稀缺没有「互联网级」的机器人动作数据;真机采数据慢且贵
实时性控制要高频(几十~几百 Hz),大模型推理慢,难直接闭环
安全性物理世界试错代价高(撞坏、伤人),不能像聊天那样随便试
Sim2Real 鸿沟仿真里训得好,搬到真机因物理差异失效
长程操作多步任务(做一顿饭)的误差累积和规划极难

数据是最大瓶颈:语言模型有整个互联网的文本,机器人没有对应的「动作互联网」。对策:真机遥操作采数据、仿真生成、跨形态数据共享、用视频学习人类动作——但都远未达到文本数据的规模和质量。

五、技术路线

  • 分层:高层用 LLM/VLM 做语言理解和任务规划(拆解成子目标),低层用专门的控制策略执行——把「慢思考的规划」和「快反应的控制」解耦。
  • 端到端 VLA:一个模型直接从感知到动作,简洁但数据需求大、可控性弱。
  • 世界模型辅助:用学到的环境动态模型(预测「这么做会发生什么」)做规划与想象训练,与 视频生成 的世界模型思路相通。
  • 仿真 + RL:在仿真里用强化学习大量试错训练策略,再迁移真机(见 强化学习基础)。

六、和 Agent 的关系

具身智能可看作 Agent 概念的「物理延伸」:都是「感知—决策—行动」的闭环,区别在行动的对象是物理世界而非数字工具。数字 Agent 的范式(规划、记忆、反思)在具身智能里同样适用,只是多了物理约束、实时性和安全这些硬骨头。GUI Agent(见 Computer Use)可视为「数字身体」,机器人则是「物理身体」。

高频追问

Q:什么是 VLA 模型? Vision-Language-Action 模型,输入视觉观测 + 语言指令,直接输出机器人动作(关节角度/末端位姿)。它把 VLM 的「看图说话」扩展成「看图行动」,把动作当成可预测的输出(离散化成 token 或连续回归),是具身智能的核心模型范式。

Q:大模型给机器人带来了什么? 语言理解(听懂自然语言指令)、世界常识(预训练知识)、视觉与任务泛化(一个模型多任务、认得新物体)。本质是把机器人从「一任务一程序、不泛化」推向「基础模型驱动、可泛化」,这是机器人领域追求大模型范式的核心动机。

Q:具身智能最大的瓶颈是什么? 数据。语言模型有整个互联网的文本,机器人没有对应规模的动作数据,真机采集又慢又贵。这是 VLA 难以像 LLM 那样「大力出奇迹」的根本原因。对策有真机遥操作、仿真生成、从人类视频学习、跨机器人数据共享,但规模和质量仍远不够。

Q:为什么大模型直接控制机器人有实时性问题? 机器人控制需要高频(几十到几百 Hz)输出动作,而大模型推理慢(几十毫秒以上一次),难以满足闭环控制频率。常见解法是分层:低频跑大模型做规划,高频跑轻量控制策略执行;或用小型/蒸馏模型、动作分块(一次输出一段动作序列)降低调用频率。

Q:Sim2Real 是什么问题? 在仿真环境训练的策略迁移到真实机器人时,因物理参数、传感器噪声、视觉外观差异而失效。缓解:域随机化(仿真里随机化物理/视觉参数提泛化)、提高仿真保真度、真机微调。它是「仿真训练省钱」与「真机可用」之间的核心鸿沟。

Q:具身智能和数字 Agent 是什么关系? 都是「感知—决策—行动」闭环,范式相通(规划、记忆、反思都适用)。区别在行动对象:数字 Agent 操作软件/工具(见 Agent 基础Computer Use),具身智能操作物理世界,多了实时控制、安全代价、Sim2Real 等物理约束。可以把具身智能看作 Agent 长出了「物理身体」。

基于 MIT 许可发布