# Jamba - 프로덕션급 Mamba 기반 AI 모델

> Clean Markdown view of GeekNews topic #14062. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14062](https://news.hada.io/topic?id=14062)
- GeekNews Markdown: [https://news.hada.io/topic/14062.md](https://news.hada.io/topic/14062.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-03-30T09:46:02+09:00
- Updated: 2024-03-30T09:46:02+09:00
- Original source: [maginative.com](https://www.maginative.com/article/ai21-labs-unveils-jamba-the-first-production-grade-mamba-based-ai-model/)
- Points: 11
- Comments: 1

## Topic Body

- AI21 Labs가 맘바 아키텍처를 기반으로 한 세계 최초의 프로덕션급 AI 모델인 잠바(Jamba)를 출시  
- 잠바는 Mamba SSM(구조화 상태 공간 모델))과 전통적인 트랜스포머 아키텍처의 강점을 결합하여 인상적인 성능과 효율성 향상을 제공  
- 256K 토큰의 광범위한 컨텍스트 윈도우. 단일 80GB GPU에서 최대 140K 토큰을 처리  
  
### 잠바의 하이브리드 아키텍처와 성능  
  
- 잠바는 하이브리드 SSM-트랜스포머 아키텍처를 통해 52B 파라미터 중 12B만을 추론 시 활용하는 혼합 전문가(MoE) 레이어를 활용  
- 메타의 Llama 2와 같은 경쟁 모델들보다 훨씬 긴 컨텍스트를 처리할 수 있으며, 높은 처리량과 효율성을 유지  
- 긴 컨텍스트에서 3배 더 높은 처리량을 제공, 비슷한 크기의 트랜스포머 기반 모델들보다 더 효율적  
- 블록과 레이어 접근 방식을 특징으로 하며, 각 잠바 블록은 주의 또는 맘바 레이어를 포함하고 이어서 다층 퍼셉트론(MLP)이 따라옴  
- 이 구조는 전체 8개 레이어 중 하나의 트랜스포머 레이어가 전체 비율로 사용됨  
- 다양한 벤치마크에서 뛰어난 결과를 보여주며, 동일한 크기의 최신 모델들과 비교하여 넓은 범위의 작업에서 성능을 뛰어넘거나 일치함   
  
### 라이선스   
  
- 잠바는 아파치 2.0 라이선스 하에 오픈 웨이트로 출시되며, 허깅 페이스에서 사용 가능함  
- 현재 잠바는 상업적 사용에 필요한 안전장치 없이 연구 모델로 출시되었으나, AI21 Labs는 향후 몇 주 안에 더 안전한 버전을 출시할 계획임

## Comments



### Comment 24097

- Author: xguru
- Created: 2024-03-30T09:56:44+09:00
- Points: 1

#### [Hacker News 의견](https://news.ycombinator.com/item?id=39853958)   
- Mamba에 대한 설명이 있는 최근 스레드에 대한 링크 공유  
  - [Mamba 설명 스레드](https://news.ycombinator.com/item?id=39501982)와 [더 나은 스레드](https://news.ycombinator.com/item?id=39482428)에 대한 두 개의 링크 제공.  
- 변압기(transformer)와 상태 공간 모델(state space model) 레이어 간의 트레이드오프에 대한 호기심이 있는 이들에게 Sasha Rush의 비디오 추천  
  - Sasha Rush의 [비디오](https://www.youtube.com/watch?v=dKJEpOtVgXc)를 통해 변압기와 상태 공간 모델 레이어 간의 차이점에 대한 이해 도움.  
- 리눅스에서 4090 GPU 1개 또는 2개를 사용하여 작동시키려는 시도와 관련된 문제 공유  
  - 리눅스에서 4090 GPU를 사용하여 체크포인트 로딩 중 문제 발생, VRAM은 충분한 것으로 보이나 실패함. 시도에 대한 흥미 표현.  
- Mamba를 사용한 전체 생산 수준 모델의 등장을 환영하면서, 긴 컨텍스트 윈도우 벤치마크에 대한 성능과 처리량 모두에 대한 관심 표현  
  - Mamba가 긴 컨텍스트를 사용할 때 처리량은 크게 증가하지만 정확도는 약간 손실된다는 인상을 받음.  
- LLM(Large Language Models)의 비효율성에 대한 지적  
  - 80GB GPU 메모리가 필요한 LLM의 비효율성에 대해 언급하며, 알고리즘 개선의 여지가 많다고 희망함.  
- 자기주의(self-attention) 레이어의 필요성에 대한 의문 제기  
  - SSM과 MLP 레이어만 번갈아 사용하는 것이 아닌, 자기주의 레이어를 포함하는 이유에 대한 질문.  
- Jamba-v0.1-hybrid-MoE 모델의 성능 향상에 대한 설명  
  - Jamba-v0.1-hybrid-MoE 모델이 기존 모델보다 더 긴 컨텍스트, 더 빠른 속도, 더 저렴한 비용을 제공하며, '하나의 모델이 모든 것을 지배한다'는 생각에 종지부를 찍을 것이라는 의견.  
- Mamba라는 이름의 중복 문제 지적  
  - Mamba라는 이름이 이미 인기 있는 파이썬 패키지로 사용되고 있어, 이름 선택에 대한 중요성 강조.  
- Sparabo라는 이름에 대한 언급과 새로운 것들에 오래된 이름이 연결되는 것에 대한 재미 언급  
  - Sparabo라는 이름의 존재 여부에 대한 질문과 새로운 것들에 오래된 이름이 사용되는 것에 대한 흥미 표현.  
- 긴 컨텍스트 작업이 MemGPT와 연관되어 있음을 언급하며, Mamba 아키텍처 모델에도 비슷한 개념이 적용될 수 있음을 제안  
  - MemGPT와 관련된 긴 컨텍스트 작업에 대한 언급과 Mamba 아키텍처 모델에도 이를 적용할 수 있을 것이라는 의견 제시.
