(논문 요약) Gemma 3 Technical Report (Paper)
핵심 내용
모델 파라미터
input image size: 896 x 896 (high resolution 의 경우 잘라서 resize)
long context 를 적은 메모리로 처리하기 위해 local attention layer (1024 token attention) 비율을 높임 (1 global for every 5 local layers)
- pretrain data: Gemma 2에서 조금 더 늘림
- 1B: 2T tokens
- 4B: 4T tokens
- 12B: 12T tokens
- 27B: 14T tokens
- multilingual data, monolingual, parallel data 추가
tokenizer: Gemma 2 와 동일 (SentencePiece with split digits, preserved whitespace, and byte-level encodings, vocab size 262k)
- instruction tuning
- 큰 모델에서의 distillation + RL
- RL에서는 다음 reward 를 학습한 뒤, weight averaged model 사용
- human feedback data
- code execution feedback
- R1 스타일 ground-truth rewards (for solving math problems)
모델 성능
- Gemini 1.5 Pro 와 비슷한 benchmark 성능 존재
- Input image size ablation