(논문 요약) SERA: Soft-Verified Efficient Repository Agents (Paper)
핵심 내용
- task: software bug patch
- teacher 를 활용하여 데이터 생성후 student 학습 (SFT only)
- codebase, bugged function 을 teacher 에 input 으로 주고 patch 및 reasoning trajectory 생성 (P1, T1)
- 생성된 patch 및 reasoning 을 teacher 에 input 으로 주고 pull request 생성
- 작성된 pull request 를 teacher 에 input 으로 주고 patch 및 reasoning trajectory 생성 (P2, T2)
- P1 과 P2 의 overlap 이 충분한 경우, 데이터로 활용
- 총 200,000 synthetic trajectories 생성
- 모델
- teacher: GLM-4.5-Air 혹은 GLM-4.6
- student: Qwen3-32B