(논문 요약) Matryoshka Representation Learning (Paper)
핵심 내용
다양한 길이의 feature 를 활용.
Risk minimization loss
- $F(x_i;\theta_F)$: 네트워크 feature
- {($x_1,y_1$),…,($x_N,y_N$)}: 총 $N$ 개의 (input, label)
- Feature dimension 이 2048 인 경우, $\mathcal{M}$={8, 16, …, 1024, 2048}
- Network weight 와 linear weights 를 동시에 학습.
- 실험에서는 $c_m=1$ 사용.
성능
- 적은 dimension 으로도 좋은 feature 를 뽑을수 있어, 빠른 속도를 낼수 있음.