(논문 요약) APIGen: Automated PIpeline for Generating Verifiable and Diverse Function-Calling Datasets (Paper)
핵심 내용
- task
- 데이터 생성 framework
- format checker 는 생성된 데이터가 다음 format 에 맞는지 체크
- semantic checker 는 LLM 사용 (사람을 대신하는 역할)
- format checker 는 생성된 데이터가 다음 format 에 맞는지 체크
실험 결과
- 얻어진 데이터로 학습시, 무거운 모델과 견줄 정도가 됨
Insight
- LLM 이 사람을 대신하는 역할은 한다고 생각하고 pipeline 을 구성할수 있음
- rule-based-checks + LLM 으로 데이터 생성