(논문 요약) GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models (paper)
핵심 내용
GSM-8K 데이터의 template 을 만든 뒤, 변수를 바꿔서 문제 생성
1세트는 총 100개 데이터 (100 templates 에서 1 개씩 생성), 총 50세트로 성능 측정
이름과 숫자를 바꿔도 성능 떨어짐.
clause 숫자를 늘리면 성능 떨어짐.
엉뚱한 정보를 넣으면 성능 떨어짐.