(논문 요약) CHEATPERSONA VECTORS: MONITORING AND CONTROLLING CHARACTER TRAITS IN LANGUAGE MODELS (Paper)
핵심 내용
- Persona vector
- single trait 에 맞는 system prompt 세팅
- 각 layer 별로 해당 trait 를 의미하는 vector 계산
- 각 layer 의 persona vector 를 조절하였을때 결과
(논문 요약) CHEATPERSONA VECTORS: MONITORING AND CONTROLLING CHARACTER TRAITS IN LANGUAGE MODELS (Paper)