(논문 요약) STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning (Paper)

핵심 내용

  • 목표: 정답이 무엇인지 알려주고 정당화 시키는 문장을 만들어 학습에 사용.
    • hint 예시
  • 결과: QA 성능 향상 시킴.
    • STaR without rationalization: hint 없이 정답이 맞은 데이터 학습.
    • STaR with rationalization : hint 를 주고 정답이 맞은 데이터도 같이 학습.