(논문 요약) LIMA: Less Is More for Alignment (paper)
핵심 내용
- 필요한 지식은 pretrain 때 습득, postrain 시 SFT 는 instruction 이 학습되는 것일수 있다는 주장
1000개의 prompts and responses pair 로 Llama 65B 추가 학습
- 데이터
- Stack Exchange: 75 STEM (including programming, math, physics, etc.) and 99 other (English, cooking, travel, and more)
- 높은 점수를 받은 question 선택
- 해당 question 의 top answer 중, 1200~4096 자인 경우 선택
- link, image, html tag 삭제하고 code, list 만 남김
- wikiHow: 카테고리를 랜덤하게 뽑은 뒤, “This article…”, “The following answer…” 과 같은 상용어구 삭제하고 link, image 삭제함.
- Pushshift Reddit: AskReddit, WritingPrompts 에서 most upvoted posts. AskReddit 은 title 에서만 데이터를 가져옴.
실험 결과
- 52,000 개 데이터로 SFT 한 Alpaca 보다 나은 성능