(논문 요약) SUBLIMINAL LEARNING; LANGUAGE MODELS TRANSMIT BEHAVIORAL TRAITS VIA HIDDEN SIGNALS IN DATA | Jaemin’s Arxiv

(논문 요약) SUBLIMINAL LEARNING: LANGUAGE MODELS TRANSMIT BEHAVIORAL TRAITS VIA HIDDEN SIGNALS IN DATA (paper)

핵심 내용

LLM A 에 특정 성향에 대한 prompt 를 주고 데이터 생성후, 다시 A 에 학습시, prompt 로 주입한 성향이 전이됨.

Preference 가 전이된 실험 결과

아키텍쳐가 다르면 전이가 되지 않음.