(논문 요약) olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models (paper)

핵심 내용

  • PDF 의 metadata 를 prompt 에 같이 넣어서 OCR 학습.

  • 학습 데이터

    • Poppler 로 PDF -> images
    • PyPDF 로 text blocks, images, positions 정보 추출
    • GPT4o 에 key-value 추출 query

  • 학습: Qwen2-VL-7B-Instruct 부터 SFT (H100 8개)

성능