(논문 요약) Agent Learning via Early Experience (Paper)
핵심 내용
- state: text
- action: text
- expert trajectory: 학습해야할 대상
- human demonstrations
- Teacher AI Model 의 결과값
- existing dataset 에서 추출한 경로
- optimal solver 로 구한 해
- off-the-shelf llm 이 직접 학습 데이터를 생성.
- 생성된 데이터를 이제는 off-the-shelf 모델 학습에 사용.
- expert trajectory 주변에서 발생할수 있는 action, state 관계를 학습.
- expert trajectory 의 rationale 을 학습.