(논문 요약) SUBLIMINAL LEARNING: LANGUAGE MODELS TRANSMIT BEHAVIORAL TRAITS VIA HIDDEN SIGNALS IN DATA (paper)
핵심 내용
- LLM A 에 특정 성향에 대한 prompt 를 주고 데이터 생성후, 다시 A 에 학습시, prompt 로 주입한 성향이 전이됨.
- Preference 가 전이된 실험 결과
- 아키텍쳐가 다르면 전이가 되지 않음.
(논문 요약) SUBLIMINAL LEARNING: LANGUAGE MODELS TRANSMIT BEHAVIORAL TRAITS VIA HIDDEN SIGNALS IN DATA (paper)