(논문 요약) Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks (Paper)
핵심 내용
- 다양한 granularity 의 데이터 학습 vision foundation model
- caption 의 granularity
- object boundary 의 granularity
Architecture
- encoder-decoder 구조 (초기 모델이라 그런듯함)
데이터
- image: 126M (ImageNet-22k, Object 365, Open Images, Conceptual Captions, LAION)
- 1차 annotation: specialist models (e.g. DINO object detector, Azure OCR, SAM, Grounding DINO)
- flitering
- excessive objects 제거
- dependency parsing tree 에서 node 의 degree 가 작은것들 제거
- NMS 로 noisy boxes 제거
- pronouns, abstract concepts 제거
- (코드 공개 안되어 있고, appendix 에도 구체적인 내용 없음)
- 1차 annotation 을 filtering 후, 모델 학습한 뒤, model inference 결과를 데이터에 추가 (했다고함)
- 최종 annotation 숫자
- 500M text
- 1.3B region-text
- 3.6B text-phrase-region
실험 결과
- finetuning data 없이 학습한 모델
- finetuning data 다 합쳐서 학습한 모델
기타 내용
- finetuning data
- model size
- Base: 232M
- Large: 771M