具身智能概览 | AI生成和翻译

Home 2025.11

具身智能:概览

具身智能(Embodied AI)是指通过物理载体(如机器人)置身于现实世界,并通过与环境直接交互进行学习、推理和行动的人工智能系统。与传统AI处理孤立抽象数据(如GPT等语言模型)不同,具身AI强调真正的智能源于感知-行动闭环:感知世界、采取行动、根据反馈进行适应。这一范式借鉴了认知科学的观点,即认知植根于物理具身而非纯粹计算。

核心原则包括:

截至2025年,得益于基础模型(大规模预训练视觉语言模型)、扩散技术和Open X-Embodiment等海量数据集,具身智能实现爆发式发展,推动人形机器人、操作控制、自主导航和人机交互等领域进步。实时性能、安全性、仿真到现实的差距以及开放世界任务扩展仍是当前挑战。谷歌RT系列、OpenVLA和基于扩散的策略等领先研究正致力于打造通用机器人。

关键技术:Diffusion Policy、RT-2与ACT

这三项技术代表通过模仿学习(基于人类或专家示范数据而非显式奖励)来训练机器人策略(从观察到动作的映射)的最前沿方法。

ACT(基于Transformer的动作分块)

Diffusion Policy

RT-2(机器人Transformer 2)

对比表格

维度 ACT Diffusion Policy RT-2
核心方法 Transformer+动作分块(确定性/回归式) 去噪扩散(生成式) 视觉语言动作模型(LLM/VLM中的token化动作)
输入 多视角图像+本体感觉 图像/点云+本体感觉 图像+语言指令
输出 分块关节动作 去噪后动作序列 Token化动作字符串
核心优势 样本效率、精度、实时性 多模态性、鲁棒性、强表现力 语义推理、网络数据泛化
推理速度 快速(单次前向) 较慢(迭代去噪) 中等(Transformer自回归)
数据效率 极高(约50次演示/任务) 中等(受益于网络预训练)
最佳适用场景 精密灵巧操作 复杂多模态任务 语言引导的新颖/涌现任务
典型成功率提升 在真实机器人基准测试表现强劲 较基线提升46%(2023年基准) 涌现技能提升2-3倍
2025年现状 低成本硬件基准方案 参数规模扩展至数十亿 OpenVLA/RT-X后继模型的基础

在具身智能中的定位

这些技术推动了灵巧机器人技术的普及:过去需要多年工程开发的任务,现在仅需数十次人类演示即可完成。随着Open X-Embodiment等数据集扩张和Figure 01、特斯拉Optimus等人形机器人硬件进步,具身智能正在快速迈向能够胜任现实世界任务的通用机器人。

Diffusion Policy项目页
RT-2技术公告
ALOHA/ACT论文
Open X-Embodiment数据集


Back

x-ai/grok-4.1-fast

Donate