(논문 요약) Diversity or Precision? A Deep Dive into Next Token Prediction (Paper)

핵심내용

  • 정답인 토큰에 대한 reward 를 더 높이면 성능이 나아짐 (eq.11 에서 $\beta < 0$).