(논문 요약) LIMA; Less Is More for Alignment

(논문 요약) LIMA: Less Is More for Alignment (paper)

핵심 내용

Stack Exchange: 75 STEM (including programming, math, physics, etc.) and 99 other (English, cooking, travel, and more)
- 높은 점수를 받은 question 선택
- 해당 question 의 top answer 중, 1200~4096 자인 경우 선택
- link, image, html tag 삭제하고 code, list 만 남김
wikiHow: 카테고리를 랜덤하게 뽑은 뒤, “This article…”, “The following answer…” 과 같은 상용어구 삭제하고 link, image 삭제함.
Pushshift Reddit: AskReddit, WritingPrompts 에서 most upvoted posts. AskReddit 은 title 에서만 데이터를 가져옴.