(논문 요약) Not All LLM Reasoners Are Created Equal (Paper)

핵심 내용

  • Compositional GSM test 문제 예시

  • LLM 이 Q1을 맞추는 확률을 $p$, Q2를 맞추는 확률을 $q$ 라고 했을때, 1과 2를 둘다 맞출 확률은 $pq$ 보다 낮음.
    • 작은 모델일수록 compositional GSM 과 GSM8K 성능 차이가 큼.

    • 수학 특화 모델도 비슷한 경향을 보임

  • GSM8K 로 instruction tuning 으로 성능을 높일때, 작은 모델들은 compositional GSM 의 성능폭이 상대적으로 적음.

  • Q2 가 있을때, Q1 을 맞출 확률이 낮아짐 (distraction).

  • Q1 을 맞추는 경우에도, Q2 의 정확도는 Q2 만 풀때보다 낮음.

  • few shot code 로 문제를 풀면 성능이 더 좋아짐.
    • few shot code 예시