具身人工智能领域核心研究者 | AI生成和翻译
具身人工智能领域顶尖研究者与意见领袖(聚焦扩散策略、RT-2/RT-X、ACT、OpenVLA、Octo及相关VLA模型)
具身人工智能领域——特别是视觉-语言-动作模型、基于扩散的策略以及机器人模仿学习——近期呈现爆发式增长。以下是当前该领域的”教育明星”(积极分享洞见、代码、论文和技术解读的研究者)。他们堪称该垂直领域的安德烈·卡帕西——通过讲座、博客、推文或开源项目将复杂机器人技术通俗化呈现的深度专家。
X(推特)平台必关注账号
这些账号持续更新论文进展、代码发布、机器人演示与技术解析:
-
@JimFan(范麟熙 NVIDIA高级研究科学家)——更新极频繁且见解深刻。主要分享机器人基础模型、VLA扩展法则、RT-X/Open X-Embodiment、扩散策略与人形机器人相关内容,是该领域实时评论的最佳来源之一 - @SergeyLevine10 谢尔盖·莱文(加州大学伯克利分校)——其领导的BAIR/RAIL实验室开创了Octo模型,共同主导OpenVLA与RT-X/Open X-Embodiment项目。定期发布论文公告、机器人视频及关于模仿/扩散策略的深度推文
- @chelseabfinn 切尔西·芬恩(斯坦福大学)——斯坦福教授,OpenVLA及多项VLA/基础模型研究的共同领导者,擅长提供宏观技术解读与新发布动态
- @pieterabbeel 皮特·阿比尔(加州大学伯克利分校)——深度强化学习与模仿学习先驱,其实验室的研究成果催生了ACT式分块处理与现代策略框架
- @_akhaliq 阿克沙伊(非核心研究者)——运营”Papers with Code”每日推文,持续推荐具身AI新论文(扩散策略变体、VLA模型等)并附链接与精要概述
- @covariantai Covariant AI(由皮特·阿比尔等人创立的企业账号)——分享RT-X类模型在仓储场景中的实际应用案例
- @shuransong 宋舒然(斯坦福/哥伦比亚大学)——扩散策略研究主导者,发布视觉运动策略与机器人扩散模型新进展
- @TonyZhaozh 赵兆(加州大学伯克利分校博士生)——ACT论文第一作者及多项后续研究贡献者,积极分享代码实现与技术解析
- @karolhausman 卡洛尔·豪斯曼(Google DeepMind)——RT-1/RT-2/RT-X核心开发者,更新谷歌机器人技术进展
- @lerobot_hugging LeRobot(Hugging Face机器人团队)——发布OpenVLA、Octo、扩散策略等开源项目、教程与对比分析
其他推荐关注:@feifei_li(李飞飞,”视觉智能”奠基人,参与具身智能研究),@drjimfan 因内容广度值得重复关注
YouTube频道与技术博客
具身AI领域的深度视频内容仍在发展中(多为研讨会或简短演示),但以下渠道提供优质深度解析:
- 蒙特利尔机器人与具身AI实验室——官方频道收录顶尖研究者研讨会(谢尔盖·莱文、切尔西·芬恩、皮特·阿比尔常驻主讲)
- 加州大学伯克利分校BAIR机器人——系列研讨会涵盖Octo、扩散策略、ACT、OpenVLA等主题,多视频标题如《Octo:开源通用机器人策略》等
- 斯坦福视觉与学习实验室 & 斯坦福人工智能实验室——切尔西·芬恩等研究者详解OpenVLA与VLA扩展理论
- Google DeepMind机器人——不定期发布RT-2、RT-X及AutoRT数据收集系统的长篇技术视频
- Hugging Face LeRobot专栏——提供在仿真/真实机器人中运行OpenVLA、Octo、扩散策略的实践教程,包含大量代码实操
- Yannic Kilcher——非机器人专项频道,但对RT-2、OpenVLA、扩散策略等论文进行深度解读与代码走读
- Outlier——主持人对具身AI研究者的播客式访谈(嘉宾包括谢尔盖·莱文、切尔西·芬恩、范麟熙等)
更多研讨会内容可搜索”RSS 2024 robotics”或”CoRL 2024”——几乎所有重要论文都有10-15分钟专题报告视频
重点关注实验室/项目(持续发布教学资源)
- 加州大学伯克利分校BAIR/RAIL → Octo、OpenVLA组成部分及多项扩散/模仿学习研究
- 斯坦福Improbable AI实验室 → OpenVLA主导实验室
- Google DeepMind机器人 → RT-2、RT-X、AutoRT
- 哥伦比亚大学宋舒然实验室 → 扩散策略原创研究
- Physical Intelligence → 新型扩散+VLM策略,在X平台极为活跃
- Hugging Face LeRobot → 通过开源代码和笔记本来普及上述所有技术
若想动手实践,建议从Hugging Face LeRobot代码库入门——该库提供可快速部署的OpenVLA、Octo和扩散策略预训练模型。
这些引领领域的”明星”通过开源代码、深度博客与公开解读推动技术进步——其精神内核与卡帕西的教学一脉相承,只是焦点从大语言模型转向了机器人领域。该领域发展迅猛(每月均有突破性论文涌现),因此关注上述X账号是保持前沿认知的最佳途径。