(논문 요약) Scaling Instructable Agents Across Many Simulated Worlds (Paper)

핵심 내용

  • state 의 graph 를 비교해서 평가
    • placeholder equivalence: object 의 identity 고려 하지 않음
    • non-placeholder (strict) equivalence: object 의 identity 고려
  • 데이터 예시

  • 모델들의 성능: QLoRA (rank of 16) 로 finetuning