论文解读:GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

张开发
2026/4/4 18:36:48 15 分钟阅读
论文解读:GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
GR00T N1 An Open Foundation Model for Generalist Humanoid Robots从架构和数据两个维度出发架构GR00T N1是一款双系统架构的视觉-语言-动作VLA模型。视觉语言模块系统2通过视觉和语言指令解释环境。随后的扩散变压器模块系统 1实时生成流体马达动作。System 2 推理模块是一个预先训练的视觉语言模型NVIDIA Eagle-2 VLM在 NVIDIA L40 GPU 上以 10Hz 运行。随后经过动作流匹配训练的扩散变压器充当系统 1 动作模块。它利用交叉注意力机制交叉参与VLM输出令牌并采用实施例特定的编码器和解码器来处理用于运动生成的来自不同数据类型的可变状态和动作维度。它以更高的频率 (120Hz) 生成闭环电机动作。系统 1 和系统 2 模块均实现为基于 Transformer 的神经网络。encoder是MLP噪声动作通过类似于ACT的分块机制输入。Eagle-2 is finetuned from a SmolLM2 (Allal et al., 2025) LLM and a SigLIP-2 (Tschannen et al., 2025) image encoder。不是用整个大模型然后我们从 LLM 中提取形状的视觉语言特征批量大小 × 序列长度 × 隐藏维度。我们发现使用中间层而不是最终层 LLM 嵌入可以带来更快的推理速度和更高的下游策略成功率。对于 GR00T-N1-2B我们使用第 12 层的表示。DiT还是去噪EEF机械臂的末端执行器。但位置标注在机器人的腰部并非手臂中心代码中有提供g1的接口如下说明可以训练机器人基坐标或底盘坐标的运动数据如图分三层组织异构源数据。底层的Web DataHuman Video不过这个数据特指以自我为中心的视频数据在论文中的数据被称之为latent-action因为它本身没有直接的动作数据所以被称之为潜在的动作数据。针对latent-action本文使用来自于ICLR2025的Latent action pretraining from videos文章处理方式。非常巧妙利用 VQ-VAE生成动作我们使用预先训练的视频生成模型也就是世界模型生成合成神经轨迹构成第二层的Synthetic Data具体哪些开源的数据集名称见论文第11页。论文中一句These simulation data significantly supplement the real-robot data with minimal human costs.看起来仿真数据开源的benchmarks名称见论文第12页被纳入了第三层real-robot data开源的数据集名称见论文第9页 如下表也印证了这个看法。实验实验方面有两个好的看点

更多文章