5P by xguru 2023-06-16 | favorite | 댓글 1개
  • 픽셀 자체를 비교하는 대신 이미지의 추상적 표현을 비교하는 내부 모델을 생성하여 학습
  • 컴퓨터 비전 작업에서 강력한 성능을 제공하며 훨씬 효율적. 광범위한 파인 튜닝 없이도 다양한 곳에 활용 가능
  • 16개 A100 GPU만으로 72시간내에 632M 파라미터의 시각적 트랜스포머 모델을 훈련 가능
    • 클래스당 12개의 라벨링된 예제만으로 ImageNet 로우샷 분류에서 SOTA 성능을 보여줌
  • 논문은 CVPR 2023에서 발표할 것이며, 훈련 코드 및 모델 체크포인트도 오픈소스로 공개
  • Image Joint Embedding Predictive Architecture

오타로 인해 '광범위' 가 제대로 적히지 않은 듯합니다