(논문 요약) What matters when building vision-language models? (Paper)

핵심 내용

  • Vision-Language Model 에서 pre-trained models, architecture choice, data, and training methods 최적화 실험.
  • 4개 dataset 에서의 성능 비교
    • VQAv2: general visual question answering
    • TextVQA: OCR abilities
    • OKVQA: external knowledge
    • COCO: captioning
  • backbone ablation
  • Fully-Autoregressive, LoRA 가 가장 나음.
  • visual token 많이 필요 없음.
  • 이미지는 aspect ratio 유지하는 대신 정사각형이 나음.
  • visual token 많이 필요 없음.
  • ocr 학습해야 DocVQA 잘함.
  • 모델로 text generation 해도 데이터 추가하는게 도움됨.

  • 학습
    • stage 1: train on OBELICS, an open web-scale image-text documents with 350M images and 115B text (max 384-pixel image)
    • stage 2: train on PDF documents (max 980-pixel image)
    • lr=1e-4, 2 epochs (1.5B images + 225B text tokens)
    • chat scenario 를 위해 large batch 로 a few hundred steps 학습 (LLaVA-Conv, ShareGPT4V)

실험 결과