(논문 요약) CHEATPERSONA VECTORS: MONITORING AND CONTROLLING CHARACTER TRAITS IN LANGUAGE MODELS (Paper)

핵심 내용

  • Persona vector
    • single trait 에 맞는 system prompt 세팅
    • 각 layer 별로 해당 trait 를 의미하는 vector 계산

  • 각 layer 의 persona vector 를 조절하였을때 결과