Jamba - 프로덕션급 Mamba 기반 AI 모델

(maginative.com)

11P by xguru 2024-03-30 | ★ favorite | 댓글 1개

AI21 Labs가 맘바 아키텍처를 기반으로 한 세계 최초의 프로덕션급 AI 모델인 잠바(Jamba)를 출시
잠바는 Mamba SSM(구조화 상태 공간 모델))과 전통적인 트랜스포머 아키텍처의 강점을 결합하여 인상적인 성능과 효율성 향상을 제공
256K 토큰의 광범위한 컨텍스트 윈도우. 단일 80GB GPU에서 최대 140K 토큰을 처리

잠바의 하이브리드 아키텍처와 성능

잠바는 하이브리드 SSM-트랜스포머 아키텍처를 통해 52B 파라미터 중 12B만을 추론 시 활용하는 혼합 전문가(MoE) 레이어를 활용
메타의 Llama 2와 같은 경쟁 모델들보다 훨씬 긴 컨텍스트를 처리할 수 있으며, 높은 처리량과 효율성을 유지
긴 컨텍스트에서 3배 더 높은 처리량을 제공, 비슷한 크기의 트랜스포머 기반 모델들보다 더 효율적
블록과 레이어 접근 방식을 특징으로 하며, 각 잠바 블록은 주의 또는 맘바 레이어를 포함하고 이어서 다층 퍼셉트론(MLP)이 따라옴
이 구조는 전체 8개 레이어 중 하나의 트랜스포머 레이어가 전체 비율로 사용됨
다양한 벤치마크에서 뛰어난 결과를 보여주며, 동일한 크기의 최신 모델들과 비교하여 넓은 범위의 작업에서 성능을 뛰어넘거나 일치함

라이선스

잠바는 아파치 2.0 라이선스 하에 오픈 웨이트로 출시되며, 허깅 페이스에서 사용 가능함
현재 잠바는 상업적 사용에 필요한 안전장치 없이 연구 모델로 출시되었으나, AI21 Labs는 향후 몇 주 안에 더 안전한 버전을 출시할 계획임

▲

xguru 2024-03-30 [-]

Hacker News 의견

Mamba에 대한 설명이 있는 최근 스레드에 대한 링크 공유
- Mamba 설명 스레드와 더 나은 스레드에 대한 두 개의 링크 제공.
변압기(transformer)와 상태 공간 모델(state space model) 레이어 간의 트레이드오프에 대한 호기심이 있는 이들에게 Sasha Rush의 비디오 추천
- Sasha Rush의 비디오를 통해 변압기와 상태 공간 모델 레이어 간의 차이점에 대한 이해 도움.
리눅스에서 4090 GPU 1개 또는 2개를 사용하여 작동시키려는 시도와 관련된 문제 공유
- 리눅스에서 4090 GPU를 사용하여 체크포인트 로딩 중 문제 발생, VRAM은 충분한 것으로 보이나 실패함. 시도에 대한 흥미 표현.
Mamba를 사용한 전체 생산 수준 모델의 등장을 환영하면서, 긴 컨텍스트 윈도우 벤치마크에 대한 성능과 처리량 모두에 대한 관심 표현
- Mamba가 긴 컨텍스트를 사용할 때 처리량은 크게 증가하지만 정확도는 약간 손실된다는 인상을 받음.
LLM(Large Language Models)의 비효율성에 대한 지적
- 80GB GPU 메모리가 필요한 LLM의 비효율성에 대해 언급하며, 알고리즘 개선의 여지가 많다고 희망함.
자기주의(self-attention) 레이어의 필요성에 대한 의문 제기
- SSM과 MLP 레이어만 번갈아 사용하는 것이 아닌, 자기주의 레이어를 포함하는 이유에 대한 질문.
Jamba-v0.1-hybrid-MoE 모델의 성능 향상에 대한 설명
- Jamba-v0.1-hybrid-MoE 모델이 기존 모델보다 더 긴 컨텍스트, 더 빠른 속도, 더 저렴한 비용을 제공하며, '하나의 모델이 모든 것을 지배한다'는 생각에 종지부를 찍을 것이라는 의견.
Mamba라는 이름의 중복 문제 지적
- Mamba라는 이름이 이미 인기 있는 파이썬 패키지로 사용되고 있어, 이름 선택에 대한 중요성 강조.
Sparabo라는 이름에 대한 언급과 새로운 것들에 오래된 이름이 연결되는 것에 대한 재미 언급
- Sparabo라는 이름의 존재 여부에 대한 질문과 새로운 것들에 오래된 이름이 사용되는 것에 대한 흥미 표현.
긴 컨텍스트 작업이 MemGPT와 연관되어 있음을 언급하며, Mamba 아키텍처 모델에도 비슷한 개념이 적용될 수 있음을 제안
- MemGPT와 관련된 긴 컨텍스트 작업에 대한 언급과 Mamba 아키텍처 모델에도 이를 적용할 수 있을 것이라는 의견 제시.

답변달기