(블로그 요약) Qwen2.5 VL (blog)

데이터에 관한 내용은 없음.

모델 수정 사항

  • coordinate 은 pixel 좌표 그대로 사용 (0~1 스케일 사용하지 않음).
  • patch size: 28 x 28
  • video 의 경우, 3D conv 사용
  • ViT 를 scratch 부터 학습
    • (LLM 에서 사용하는) RMSNorm, SwiGLU 사용
    • (처리 속도 향상 목적) window attention 사용
    • CLIP -> vision-language model alignment -> end-to-end training