(논문 요약) STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning (Paper)
핵심 내용
- 목표: 정답이 무엇인지 알려주고 정당화 시키는 문장을 만들어 학습에 사용.
- hint 예시
- hint 예시
- 결과: QA 성능 향상 시킴.
- STaR without rationalization: hint 없이 정답이 맞은 데이터 학습.
- STaR with rationalization : hint 를 주고 정답이 맞은 데이터도 같이 학습.