(논문 요약) TULU 3: Pushing Frontiers in Open Language Model Post-Training (Paper)
핵심 내용
- Data, code, and training recipes 모두 공개
- 모델: Llama 3.1 기반
학습 순서
- Reinforcement Learning with Verifiable Rewards
- LLM 의 마지막 답변이 맞는 경우 reward=10, 아닌 경우 0
- PPO algorithm 사용