(논문 요약) Training Language Models to Self-Correct via Reinforcement Learning (Paper)
핵심 내용
첫번째 response 에 대해서, 이를 수정하여 2번째 response 생성
학습
- reward: 논문에서 자세히 안나오고, 예시로 string-matching based answer checking function 같은 oracle reward 가 존재한다고 가정.
- stage 1:
- stage 2: