(논문 요약) Self-Distillation Enables Continual Learning (Paper)

핵심 내용

  • distillation 시 teacher 에 expert demonstrations (ground truth examples) 를 prompt 에 추가.
    • teacher 의 weight: student 의 EMA.
    • expert demonstrations: data set 에 있는 예시.
    • loss: KL(student policy || teacher policy) -> student 가 true distribution 에 오는 것이 핵심.
  • SFT 보다 나은 성능 및 적은 forgetting.