6P by xguru 6달전 | favorite | 댓글과 토론
  • "ConvNets Match Vision Transformers at Scale"
  • ConvNet은 중소규모 데이터 세트에서는 성능이 좋지만, 초대형 데이터 세트에서는 트랜스포머, 특히 비전 트랜스포머(ViT)에 미치지 못한다는 일반적인 인식이 있음
  • 딥마인드의 최신 연구가 이러한 관념에 도전
    • 트랜스포머의 확장성이 ConvNets의 확장성을 능가한다고 여겨져 왔지만, 이를 뒷받침할 증거는 부족
    • 저자들은 NFNet (Normalizer-Free ResNets) 패밀리를 사용하여 망의 넓이/깊이를 점진적으로 증가시킴
    • JFT-4B 에서 사전 학습하고, SAM(Sharpness-Aware Minimization)을 사용하여 ImageNet에서 파인 튜닝
    • 결과적으로 ViT 모델과 동등한 성능을 보여줌
    • 모든 모델이 계산 능력이 추가됨에 따라 지속적으로 개선됨