Jamba - 프로덕션급 Mamba 기반 AI 모델
(maginative.com)- AI21 Labs가 맘바 아키텍처를 기반으로 한 세계 최초의 프로덕션급 AI 모델인 잠바(Jamba)를 출시
- 잠바는 Mamba SSM(구조화 상태 공간 모델))과 전통적인 트랜스포머 아키텍처의 강점을 결합하여 인상적인 성능과 효율성 향상을 제공
- 256K 토큰의 광범위한 컨텍스트 윈도우. 단일 80GB GPU에서 최대 140K 토큰을 처리
잠바의 하이브리드 아키텍처와 성능
- 잠바는 하이브리드 SSM-트랜스포머 아키텍처를 통해 52B 파라미터 중 12B만을 추론 시 활용하는 혼합 전문가(MoE) 레이어를 활용
- 메타의 Llama 2와 같은 경쟁 모델들보다 훨씬 긴 컨텍스트를 처리할 수 있으며, 높은 처리량과 효율성을 유지
- 긴 컨텍스트에서 3배 더 높은 처리량을 제공, 비슷한 크기의 트랜스포머 기반 모델들보다 더 효율적
- 블록과 레이어 접근 방식을 특징으로 하며, 각 잠바 블록은 주의 또는 맘바 레이어를 포함하고 이어서 다층 퍼셉트론(MLP)이 따라옴
- 이 구조는 전체 8개 레이어 중 하나의 트랜스포머 레이어가 전체 비율로 사용됨
- 다양한 벤치마크에서 뛰어난 결과를 보여주며, 동일한 크기의 최신 모델들과 비교하여 넓은 범위의 작업에서 성능을 뛰어넘거나 일치함
라이선스
- 잠바는 아파치 2.0 라이선스 하에 오픈 웨이트로 출시되며, 허깅 페이스에서 사용 가능함
- 현재 잠바는 상업적 사용에 필요한 안전장치 없이 연구 모델로 출시되었으나, AI21 Labs는 향후 몇 주 안에 더 안전한 버전을 출시할 계획임
Hacker News 의견
- Mamba에 대한 설명이 있는 최근 스레드에 대한 링크 공유
- Mamba 설명 스레드와 더 나은 스레드에 대한 두 개의 링크 제공.
- 변압기(transformer)와 상태 공간 모델(state space model) 레이어 간의 트레이드오프에 대한 호기심이 있는 이들에게 Sasha Rush의 비디오 추천
- Sasha Rush의 비디오를 통해 변압기와 상태 공간 모델 레이어 간의 차이점에 대한 이해 도움.
- 리눅스에서 4090 GPU 1개 또는 2개를 사용하여 작동시키려는 시도와 관련된 문제 공유
- 리눅스에서 4090 GPU를 사용하여 체크포인트 로딩 중 문제 발생, VRAM은 충분한 것으로 보이나 실패함. 시도에 대한 흥미 표현.
- Mamba를 사용한 전체 생산 수준 모델의 등장을 환영하면서, 긴 컨텍스트 윈도우 벤치마크에 대한 성능과 처리량 모두에 대한 관심 표현
- Mamba가 긴 컨텍스트를 사용할 때 처리량은 크게 증가하지만 정확도는 약간 손실된다는 인상을 받음.
- LLM(Large Language Models)의 비효율성에 대한 지적
- 80GB GPU 메모리가 필요한 LLM의 비효율성에 대해 언급하며, 알고리즘 개선의 여지가 많다고 희망함.
- 자기주의(self-attention) 레이어의 필요성에 대한 의문 제기
- SSM과 MLP 레이어만 번갈아 사용하는 것이 아닌, 자기주의 레이어를 포함하는 이유에 대한 질문.
- Jamba-v0.1-hybrid-MoE 모델의 성능 향상에 대한 설명
- Jamba-v0.1-hybrid-MoE 모델이 기존 모델보다 더 긴 컨텍스트, 더 빠른 속도, 더 저렴한 비용을 제공하며, '하나의 모델이 모든 것을 지배한다'는 생각에 종지부를 찍을 것이라는 의견.
- Mamba라는 이름의 중복 문제 지적
- Mamba라는 이름이 이미 인기 있는 파이썬 패키지로 사용되고 있어, 이름 선택에 대한 중요성 강조.
- Sparabo라는 이름에 대한 언급과 새로운 것들에 오래된 이름이 연결되는 것에 대한 재미 언급
- Sparabo라는 이름의 존재 여부에 대한 질문과 새로운 것들에 오래된 이름이 사용되는 것에 대한 흥미 표현.
- 긴 컨텍스트 작업이 MemGPT와 연관되어 있음을 언급하며, Mamba 아키텍처 모델에도 비슷한 개념이 적용될 수 있음을 제안
- MemGPT와 관련된 긴 컨텍스트 작업에 대한 언급과 Mamba 아키텍처 모델에도 이를 적용할 수 있을 것이라는 의견 제시.