(논문 요약) InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning (Paper)
핵심 내용
모델: decoder-only transformer (InterLM 이라는 자체 pretrained LLM)
학습: 다양한 task 의 데이터 쌍 학습 (e.g. problem->COT, [aug]+problem->aug-problem)
Reasoning interleaved with coding: 작은 문제를 code 로 풀고 결과 취합해서 최종 답 생성
실험
Pretrain 데이터: filtering, depulication 이후 31.2B tokens
SFT 데이터: filtering, depulication 이후 31.2B tokens
타 모델과 비교