(논문 요약) How much do language models memorize? (Paper)
핵심 내용
- unintended memorization: 데이터 셋 자체를 외운 것
- generalization: 데이터 생성 process 를 파악한 것
Formulation
- Entire memorization: 모델이 데이터를 설명하는 정보량
- Unintended memorization: 데이터 생성 프로세스를 알고 있을 때보다 더 감소된 정보량
- Generalization: Entire memorization - Uninted memorization
- Kolmogorov complexity
- Kolmogorov complexity of $x$ relative to another string $\theta$
- Kolmogorov mutual information
- Kolmogorov memorization
를 가정하면, 다음이 성립함.
- Approximation
- $\hat{\theta}$ 는 target 모델, $\theta$ 는 oracle (실험에 쓰인 모델중 큰 모델)
- $H^K(x|\hat{\theta})$ 는 $p(x|\hat{\theta})$ 를 이용하여 계산
- $H^K(x|\hat{\theta}, \theta)$ 는$\max(p(x|\hat{\theta}), p(x|\theta))$ 를 이용하여 계산
- Model capacity: 모델이 saturation 까지 학습할수 있는 데이터 사이즈
실험 세팅
- GPT-2 architecture
- layer 1개~8개
- hidden dimension (32~512)
- param: 100K~20M
- training hyperparams
- $10^6$ training steps
- batch size: 2048
- Adam optimizer
- Data
- vocabulary size: 2048
- random sequence
- sequence length: 64
Bit-per-parameter for transformers
- bf16 에서 fp32 로 바꿔서 실험시, bits-per-parameter 가 3.51 에서 3.83 로 (10% 정도) 증가했다고함 (용량은 2배 늘었음에도 불구하고).