# Meta, 혁신적인 AI 모델 아키텍처 Megabyte 공개

> Clean Markdown view of GeekNews topic #9265. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=9265](https://news.hada.io/topic?id=9265)
- GeekNews Markdown: [https://news.hada.io/topic/9265.md](https://news.hada.io/topic/9265.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-05-26T10:02:01+09:00
- Updated: 2023-05-26T10:02:01+09:00
- Original source: [artisana.ai](https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture)
- Points: 14
- Comments: 2

## Topic Body

- GTP-4 같은 모델이 사용하는 트랜스포머 아키텍처를 뛰어넘어 더 효율적/병렬적으로 처리하게 스케일 가능   
- 트랜스포머는 짧은 시퀀스에는 적합하지만, 고해상 이미지, 팟캐스트, 코드, 책과 같은 1백만개 이상의 긴 토큰으로의 확장은 어려움   
- Megabyte 는 멀티-스케일 디코더 아키텍처로 1백만 이상의 시퀀스를 모델링 가능   
  - 입력과 출력의 시퀀스를 개별 토큰이 아닌 "Patch"로 분할   
  - 로컬 AI 모델이 각 패치에 대해서 결과를 생성하고, 글로벌 모델이 이 패치들을 관리 및 조율   
- 테스트 결과 15억(1.5B)개의 파라미터 모델을 이용하는 Megabyte 모델이 3억 5천만개(350M)개의 파라미터로 동작하는 트랜스포머 모델보다 40% 더 빠르게 시퀀스를 구성   
- 테스트 결과 GPT-4 의 32000개 토큰, Claude의 10만개 토큰을 훨씬 뛰어넘어 1.2M개의 토큰 까지 가능

## Comments


### Comment 16291

- Author: ninebow
- Created: 2023-05-27T21:22:11+09:00
- Points: 1

AI 인프라 및 도구 개발 스타트업인 ENCORD에서 작성한 Megabyte에 대한 소개 글을 아래와 같이 허락하에 번역하였습니다. :)  
  
https://discuss.pytorch.kr/t/meta-ai-megabyte-megabyte-meta-ai-s-new-revolutionary-model-architecture-explained/1656

### Comment 16283

- Author: cosine20
- Created: 2023-05-27T10:02:41+09:00
- Points: 1

본문에도 있긴 하지만 논문 링크입니다: https://arxiv.org/abs/2305.07185