Convolution 제국의 역습

(gonzoml.substack.com)

"ConvNets Match Vision Transformers at Scale"
ConvNet은 중소규모 데이터 세트에서는 성능이 좋지만, 초대형 데이터 세트에서는 트랜스포머, 특히 비전 트랜스포머(ViT)에 미치지 못한다는 일반적인 인식이 있음
딥마인드의 최신 연구가 이러한 관념에 도전
- 트랜스포머의 확장성이 ConvNets의 확장성을 능가한다고 여겨져 왔지만, 이를 뒷받침할 증거는 부족
- 저자들은 NFNet (Normalizer-Free ResNets) 패밀리를 사용하여 망의 넓이/깊이를 점진적으로 증가시킴
- JFT-4B 에서 사전 학습하고, SAM(Sharpness-Aware Minimization)을 사용하여 ImageNet에서 파인 튜닝
- 결과적으로 ViT 모델과 동등한 성능을 보여줌
- 모든 모델이 계산 능력이 추가됨에 따라 지속적으로 개선됨