(논문 요약) SWE-BENCH: CAN LANGUAGE MODELS RESOLVE REAL-WORLD GITHUB ISSUES? (Paper)

핵심 내용

  • Evaluation framework: 2,294 software engineering problems from 12 popular Python repositories (GitHub issues + pull requests)

기존 모델 성능

  • SWE-llama 는 code-llama 에서 supervised finetuning 한 모델. 학습 데이터로 37 popular Python package repositories 에서 19,000 issue-PR pairs 사용.