(논문 요약) GR00T N1: An Open Foundation Model for Generalist Humanoid Robots (Paper)

핵심 내용

  • Eagle-2 VLM (SigLIP-2 + SmolLM2 의 LLM) 추가 학습
  • Action 부분은 embedding 을 denoising 하는 방식 (pi0.5 와 같음)

  • 실제 데이터
    • GR00T N1 Humanoid Pre-Training Dataset
    • Open X-Embodiment
    • AgiBot-Alpha
  • 생성 데이터
    • pre-trained video generation models 로 88 시간 짜리 in-house 데이터 학습하여 827 시간 데이터 생성
    • latent action 은 VQ-VAE model 학습

  • 시뮬레이션 데이터: DexMimicGen 로 780,000 simulation trajectories 생성 (6,500 hours)

  • 학습 자원

    • GR00T-N1-2B: ~50,000 H100 GPU hours for pretraining