(논문 요약) TULU 3; Pushing Frontiers in Open Language Model Post-Training | Jaemin’s Arxiv

(논문 요약) TULU 3: Pushing Frontiers in Open Language Model Post-Training (Paper)

핵심 내용

Data, code, and training recipes 모두 공개
모델: Llama 3.1 기반
학습 순서
Reinforcement Learning with Verifiable Rewards
- LLM 의 마지막 답변이 맞는 경우 reward=10, 아닌 경우 0
- PPO algorithm 사용

실험 결과