(논문 요약) SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features (paper)
핵심 내용
- CLIP loss (siglip-v1) 에 EMA distillation 과 autoregressive loss 추가
- 학습 데이터: WebLI dataset (10B images, 12B alt-texts, 109 languages, google-proprietary)
성능
- 0-shot classification
- Image retrieval 에서 SigLIP, SigLIP 2, mSigLIP 비교
- Gemma 2 LLM 붙이고 학습 시, SigLIP, SigLIP 2, mSigLIP 성능 비교
- 6-layer transformer decoder 붙이고 mix of all RefCOCO variants 데이터로 학습 후, SigLip 과 SigLip 2 성능 비교