(논문 요약) SUBLIMINAL LEARNING: LANGUAGE MODELS TRANSMIT BEHAVIORAL TRAITS VIA HIDDEN SIGNALS IN DATA (paper)

핵심 내용

  • LLM A 에 특정 성향에 대한 prompt 를 주고 데이터 생성후, 다시 A 에 학습시, prompt 로 주입한 성향이 전이됨.


  • Preference 가 전이된 실험 결과

  • 아키텍쳐가 다르면 전이가 되지 않음.