1P by neo 6달전 | favorite | 댓글과 토론

비전 트랜스포머에 레지스터가 필요함

  • 저자: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
  • ICLR 2024 구두 발표
  • 2024년 1월 16일 게재, 2024년 4월 12일 최종 수정

요약

  • 지도 학습 및 자기지도 학습으로 훈련된 Vision Transformer(ViT) 모델의 특징 맵에서 아티팩트를 발견하고 특성화함
  • 추론 중에 주로 정보량이 적은 배경 영역에 나타나는 높은 norm의 토큰들이 내부 계산을 위해 재사용되는 것에 해당하는 아티팩트
  • ViT 입력 시퀀스에 추가 토큰("레지스터"라고 함)을 제공하는 간단하지만 효과적인 솔루션 제안
  • 지도 및 자기지도 모델 모두에서 이 문제를 완전히 해결하고, 밀집 시각적 예측 작업에서 자기지도 시각 모델의 새로운 SOTA를 설정하며, 더 큰 모델로 객체 탐지 방법을 가능하게 하고, 무엇보다 다운스트림 시각적 처리를 위해 더 부드러운 특징 맵과 어텐션 맵으로 이어짐

실험 및 분석

  • 아티팩트에 대한 조사가 매우 독창적이며 철저함. 그래프와 설명이 매우 통찰력 있고 실험이 포괄적임
  • 제안된 레지스터 토큰 포함은 매우 간단하고 우아하며 더 해석 가능한 어텐션 마스크를 제공함
  • 제한 사항에 대한 진술을 높이 평가함
  • 논문이 따라가기 쉽고 시각화가 직관을 제공하는 데 도움이 됨

개선 사항

  • 레지스터 토큰을 추가하여 이상치 토큰의 행동이 제거되었다는 것을 보여주는 실험이 부족함. 제안된 모델에서 이미지/레지스터 토큰으로 전달되는지 확인하는 것이 흥미로울 것임
  • 비지도 객체 탐지에 대한 모델 성능 논의가 제한적이며 결과와 일치하지 않음
  • DINOv2+reg의 이득이 인상적이지만 DINO와 일치하지 않는 이유에 대해 더 많은 논의나 정성적 예시가 필요함
  • 모든 모델에서 레지스터가 비지도 객체 탐지 성능을 향상시킨다고 했지만 OpenCLIP 성능은 오히려 저하됨

GN⁺의 의견

  • 제한된 patch-level 중복성을 줄이기 위해 레지스터 외에 다른 방법도 있을 수 있음. MAE와 같이 patch-level 재구성이 표현의 중복성을 완화해야 하는 다른 자기지도 모델에서 비슷한 효과가 관찰되는지 궁금함

  • OpenCLIP 성능 저하에 대한 추가 설명이 필요해 보임. 또한 DINO의 LOST 성능이 DINOv2보다 좋은 이유도 설명이 부족함

  • DINOv2가 밀도 있는 마스크-이미지-모델링 목적 함수를 사용하면서 이런 행동을 보이는 것이 의외임. 마스크된 이미지 목적 함수가 패치 특징에 정보 보존을 요구함에도 불구하고 이런 행동을 막지 못한 이유가 궁금함

  • 데이터셋 자체의 편향성과 레이블의 편향성을 구분할 필요가 있어 보임. SSL은 레이블 편향에는 영향을 덜 받지만 Instagram vs iNaturalist 같은 데이터 소스에 따른 편향은 여전히 존재할 수 있음

  • 더 큰 모델에서 이상치 토큰이 나타난다고 제안했지만, CLIP/DEIT의 base 모델에서는 그렇지 않음. 2.2절 끝에 이에 대한 논평이 있으면 좋겠음

  • 레지스터를 추가한 DINO 모델의 비지도 객체 탐지 성능이 OpenAI의 CLIP이나 Google의 LiT 등 유사한 기능을 하는 다른 모델들과 비교했을 때 어떤지 궁금함

  • ViT 기반 모델들에서 관찰되는 이상치 토큰 현상이 CNN 기반 모델에서도 나타나는지, 트랜스포머 구조 특유의 것인지 분석해보면 좋겠음

  • 실제 응용에서 레지스터 토큰을 사용할 때 계산량 증가로 인한 성능 저하는 없을지, 최적의 레지스터 개수를 어떻게 결정할 수 있을지에 대한 가이드라인이 있으면 도움이 될 듯함