Mamba: 트랜스포머에 도전하는 상태 공간 모델

(kolaayonrinde.com)

11P by GN⁺ 2024-02-27 | ★ favorite | 댓글과 토론

Mamba는 Transformer에 도전하는 상태 공간 모델(State Space Model)

AI는 현재 세계를 지배하고 있으며, 그 중심에는 트랜스포머가 있음
Mamba는 상태 공간 모델(SSM)이라는 대안적 모델 클래스에 속함
Mamba는 트랜스포머와 유사한 성능과 확장성을 가지면서도 긴 시퀀스 길이에서 실행 가능함
주목할 만한 점은 Mamba가 '어텐션 메커니즘'의 '제곱 병목현상'을 제거하여 긴 컨텍스트를 가능하게 함
Mamba는 트랜스포머보다 최대 5배 빠른 속도로 실행됨

트랜스포머의 문제점 - 어텐션만으로는 충분하지 않을 수도 있음

트랜스포머는 모든 토큰이 이전 토큰을 참조할 수 있어, 컨텍스트가 커질수록 모델이 느려짐
이러한 KV 캐시의 저장은 공간 복잡도도 O(n)이 필요함
기존의 트랜스포머의 병목 현상을 완화하는 기술들이 있지만, 근본적인 해결을 위해서는 다른 접근 방식이 필요함

기초 모델 백본

좋은 ML 아키텍처 백본의 두 가지 중요한 구성 요소
- 토큰 간의 통신(Communication)
- 토큰 내의 계산(Computation)
트랜스포머 블록은 주의(Attention)와 MLPs로 구성되어 있음
Mamba는 통신을 위해 제어 이론에서 영감을 받은 SSM을 사용하고, 계산을 위해 MLP 스타일의 투영을 유지함

Mamba 동기 부여 - Temple Run으로 돌아가기

상태(state) 는 시스템의 미래 행동을 결정하는 데 필요한 변수들을 의미함
상태는 과거에 대해 알아야 할 모든 것을 압축한 것으로, 마르코프 결정 과정으로 변환됨

이산화 - 양자화된 세계에서 살아가기

연속 시간 미분 방정식을 이산 시간 차분 방정식으로 변환하는 과정을 이산화(discretisation) 라고 함
Mamba는 제로-오더 홀드(ZOH) 이산화를 사용함

SSM 행렬 이해하기

A, B, C, D 행렬은 상태 전이, 새 입력을 상태에 매핑, 상태를 SSM 출력에 매핑, 새 입력을 출력에 통과시키는 역할을 함

효율성 대 효과성: Attention is Focus, Selectivity is Prioritisation (주의는 집중이고, 선택성은 우선 순위 설정)

트랜스포머는 매우 효과적 이지만 효율적 이지는 않음
Mamba 아키텍처는 효율성과 효과성의 파레토 최전선을 밀어내는 솔루션을 제공함

선택 메커니즘

선택성(Selectivity) 은 각 토큰을 그것의 필요에 맞게 상태로 변환할 수 있게 함
Mamba는 A, B, C 행렬을 x의 함수로 만들어 정적이 아닌 컨텍스트 의존적으로 함

선택성의 문제점

선택 메커니즘을 적용하면 비선택적 SSM보다 계산이 느려질 수 있음
하드웨어 최적화를 통해 Mamba는 비슷한 크기의 트랜스포머보다 빠르게 실행될 수 있음

기계 학습과 정치 경제학 - 상태의 크기는 얼마나 커야 하는가?

시퀀스 모델의 효율성 대 효과성 트레이드오프는 상태를 얼마나 잘 압축하는지에 의해 특징지어짐
상태 표현이 중요하며, 상태를 선택적이고 동적으로 압축하는 것이 핵심임

트랜스포머 대 Mamba의 정보 흐름

트랜스포머는 훈련 데이터와 컨텍스트 데이터를 통해 학습함
Mamba는 훈련 데이터와 컨텍스트 데이터가 압축/필터링되어 접근 가능함

새로운 프롬프팅 패러다임으로서의 상태 교체

Mamba와 같은 모델을 사용하면 전문 데이터를 통해 생성된 상태 라이브러리를 공유할 수 있음
상태는 백프롭 없이 추론 시간에 무한한 컨텍스트 학습을 적용할 수 있음

Mamba와 메커니즘 해석 가능성

Mamba의 해석 가능성은 토큰 간의 정보 이동을 이해하는 것에 초점을 맞춤

Mamba와 SSM이 다음에 할 일

Mamba와 같은 모델은 매우 긴 컨텍스트와 장기 기억이 필요한 시나리오에서 뛰어난 성능을 발휘할 가능성이 있음

에이전트와 AI 안전성

언어 모델은 본질적으로 안전하지만, 장기적인 시퀀스 추론의 가능성은 에이전트 기반 AI 안전성의 중요성을 되살림

트랜스포머와 Mamba의 최고의 협업

Mamba의 긴 컨텍스트와 트랜스포머의 짧은 시퀀스에 대한 고해상도를 결합하는 것이 가치가 있음

GN⁺의 의견

Mamba는 트랜스포머의 병목 현상을 해결하고 긴 시퀀스 처리에 효과적인 대안을 제시함
이 기술은 특히 의료, 유전학, 자연어 처리 등 데이터의 긴 시퀀스가 중요한 분야에서 유용할 수 있음
Mamba의 선택 메커니즘이 실제로 효과적인지에 대한 추가 연구가 필요함
Mamba의 선택성은 트랜스포머가 제공하는 높은 정확도와 효율성 사이의 균형을 찾는 데 도움이 될 수 있음