Convolution 제국의 역습
(gonzoml.substack.com)- "ConvNets Match Vision Transformers at Scale"
- ConvNet은 중소규모 데이터 세트에서는 성능이 좋지만, 초대형 데이터 세트에서는 트랜스포머, 특히 비전 트랜스포머(ViT)에 미치지 못한다는 일반적인 인식이 있음
- 딥마인드의 최신 연구가 이러한 관념에 도전
- 트랜스포머의 확장성이 ConvNets의 확장성을 능가한다고 여겨져 왔지만, 이를 뒷받침할 증거는 부족
- 저자들은 NFNet (Normalizer-Free ResNets) 패밀리를 사용하여 망의 넓이/깊이를 점진적으로 증가시킴
- JFT-4B 에서 사전 학습하고, SAM(Sharpness-Aware Minimization)을 사용하여 ImageNet에서 파인 튜닝
- 결과적으로 ViT 모델과 동등한 성능을 보여줌
- 모든 모델이 계산 능력이 추가됨에 따라 지속적으로 개선됨