(논문 요약) Reinforcement Learning for Reasoning in Large Language Models with One Training Example | Jaemin’s Arxiv

(논문 요약) Reinforcement Learning for Reasoning in Large Language Models with One Training Example (Paper)

핵심 내용

데이터 1개로 RLVR 돌려도 수천개 데이터로 돌린 것과 비슷한 효과를 볼수 있음.

실험 결과

$\pi_j$: 각 데이터별 training accuracy 의 분산이 큰 순서로 sort 한뒤 $j$ 번째 element.