[번역] Meta AI의 Megabyte에 대한 설명
(discuss.pytorch.kr)AI 인프라 / 도구 개발 스타트업 ENCORD에서 작성한 Megabyte 설명 글의 번역
- MegaByte의 주요한 구조 소개
- Patch Embedder: 입력을 임베딩하고 패치로 분할
- Global Module: 셀프 어텐션을 수행하는 자기회귀 트랜스포머
- Local Module: 글로벌 모델로부터 받은 입력으로 다음 패치를 예측
- 멀티스케일 트랜스포머(Multiscale Transformer) 소개
- 자기회귀 트랜스포머(Autoregressive Transformer) 소개
- 현재 모델의 문제점: Tokenization, Scalability, Generation Speed
- 제안하는 해결 방법
- 연산 비용을 O(N^(4/3))으로 절감한 셀프 어텐션
- 패치 단위로 피드포워드 레이어 적용
- 디코딩 시 병렬 처리
- (추가) Meta AI의 최신 근황
- SAM: https://news.hada.io/topic?id=8893
- MTIA: https://news.hada.io/topic?id=9246
- DINOv2: https://news.hada.io/topic?id=9269
- ImageBIND: https://news.hada.io/topic?id=9156
- (글에는 없지만) MMS: https://news.hada.io/topic?id=9245
- (역시 글에는 없지만) LIMA: https://news.hada.io/topic?id=9239