14P by xguru 11달전 | favorite | 댓글 2개
  • GTP-4 같은 모델이 사용하는 트랜스포머 아키텍처를 뛰어넘어 더 효율적/병렬적으로 처리하게 스케일 가능
  • 트랜스포머는 짧은 시퀀스에는 적합하지만, 고해상 이미지, 팟캐스트, 코드, 책과 같은 1백만개 이상의 긴 토큰으로의 확장은 어려움
  • Megabyte 는 멀티-스케일 디코더 아키텍처로 1백만 이상의 시퀀스를 모델링 가능
    • 입력과 출력의 시퀀스를 개별 토큰이 아닌 "Patch"로 분할
    • 로컬 AI 모델이 각 패치에 대해서 결과를 생성하고, 글로벌 모델이 이 패치들을 관리 및 조율
  • 테스트 결과 15억(1.5B)개의 파라미터 모델을 이용하는 Megabyte 모델이 3억 5천만개(350M)개의 파라미터로 동작하는 트랜스포머 모델보다 40% 더 빠르게 시퀀스를 구성
  • 테스트 결과 GPT-4 의 32000개 토큰, Claude의 10만개 토큰을 훨씬 뛰어넘어 1.2M개의 토큰 까지 가능

AI 인프라 및 도구 개발 스타트업인 ENCORD에서 작성한 Megabyte에 대한 소개 글을 아래와 같이 허락하에 번역하였습니다. :)

https://discuss.pytorch.kr/t/…

본문에도 있긴 하지만 논문 링크입니다: https://arxiv.org/abs/2305.07185