(논문 요약) InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output (Paper)

핵심 내용

  • 모델
    • vision encoder: CLIP ViT-L-14-490 from IXC2 (increase resolution to 560x560)
    • PLoRA 는 image 쪽만 LoRA 를 쓴다는 뜻
  • 데이터: gpt4, claude 등의 모델을 활용하여 alignment 데이터 생성

실험 결과

  • benchmark 에서 gpt4v 와 비슷