(논문 요약) Grounded Language-Image Pre-training (Paper)
핵심 내용
- prompt 로 detect.
- 학습 방법
- image + bbox + prompt 가 주어짐.
- 각 prompt 와 object region 에 대해서 align 하여 학습.
- COCO style: Person. Bicycle. … Hairdryer.
- text: A woman holds a blow dryer, wearing protective goggles
- alignment 정보는 bbox 가 가지고 있음 (location, cateogry).
- feature fusion 부분이 있음.
- 학습 데이터: 3M human-annotated + (pseudolabeled) 24M web-crawled image-text pairs
실험 결과
- 데이터
- O365 (Objects365): 0.66M images, 365 categories
- GoldG: 0.8M human-annotated data
- Flickr30K: image-text data
- VG Caption: image-text data
- Cap4M: image-text data (4M pairs)
- CC3M: image-text data
- SBU: image-text data