(논문 요약) Apple Intelligence Foundation Language Models (Paper)
핵심 내용
- 기존에 알려진 방법론으로 애플 고유의 모델 개발
- Apple Intelligence architecture
- network architecture
- shared input/output embedding matrix
- Pre-Normalization with RMSNorm
- Query/key normalization
- Grouped-query attention (GQA)
- SwiGLU activation
- RoPE positional embeddings
- 데이터는 web 에서 직접 수집 (Applebot 이라는 web-crawler 사용)
- AFM-server 와 AFM-on-device 를 개발