(논문 요약) Grounded Language-Image Pre-training | Jaemin’s Arxiv

(논문 요약) Grounded Language-Image Pre-training (Paper)

핵심 내용

prompt 로 detect.
학습 방법
- image + bbox + prompt 가 주어짐.
- 각 prompt 와 object region 에 대해서 align 하여 학습.
  - COCO style: Person. Bicycle. … Hairdryer.
  - text: A woman holds a blow dryer, wearing protective goggles
  - alignment 정보는 bbox 가 가지고 있음 (location, cateogry).
- feature fusion 부분이 있음.
학습 데이터: 3M human-annotated + (pseudolabeled) 24M web-crawled image-text pairs

실험 결과

데이터
- O365 (Objects365): 0.66M images, 365 categories
- GoldG: 0.8M human-annotated data
- Flickr30K: image-text data
- VG Caption: image-text data
- Cap4M: image-text data (4M pairs)
- CC3M: image-text data
- SBU: image-text data