# Mamba: 트랜스포머에 도전하는 상태 공간 모델

> Clean Markdown view of GeekNews topic #13538. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=13538](https://news.hada.io/topic?id=13538)
- GeekNews Markdown: [https://news.hada.io/topic/13538.md](https://news.hada.io/topic/13538.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-02-27T08:34:32+09:00
- Updated: 2024-02-27T08:34:32+09:00
- Original source: [kolaayonrinde.com](https://www.kolaayonrinde.com/blog/2024/02/11/mamba.html)
- Points: 11
- Comments: 0

## Topic Body

### Mamba는 Transformer에 도전하는 상태 공간 모델(State Space Model)  
- AI는 현재 세계를 지배하고 있으며, 그 중심에는 트랜스포머가 있음  
- Mamba는 상태 공간 모델(SSM)이라는 대안적 모델 클래스에 속함  
- Mamba는 트랜스포머와 유사한 성능과 확장성을 가지면서도 긴 시퀀스 길이에서 실행 가능함  
- 주목할 만한 점은 Mamba가 '어텐션 메커니즘'의 '제곱 병목현상'을 제거하여 긴 컨텍스트를 가능하게 함  
- Mamba는 트랜스포머보다 최대 5배 빠른 속도로 실행됨  
  
### 트랜스포머의 문제점 - 어텐션만으로는 충분하지 않을 수도 있음  
- 트랜스포머는 모든 토큰이 이전 토큰을 참조할 수 있어, 컨텍스트가 커질수록 모델이 느려짐  
- 이러한 KV 캐시의 저장은 공간 복잡도도 O(n)이 필요함  
- 기존의 트랜스포머의 병목 현상을 완화하는 기술들이 있지만, 근본적인 해결을 위해서는 다른 접근 방식이 필요함  
  
### 기초 모델 백본  
  
- **좋은 ML 아키텍처 백본의 두 가지 중요한 구성 요소**  
  - 토큰 간의 **통신(Communication)**  
  - 토큰 내의 **계산(Computation)**  
- 트랜스포머 블록은 주의(Attention)와 MLPs로 구성되어 있음  
- Mamba는 통신을 위해 제어 이론에서 영감을 받은 SSM을 사용하고, 계산을 위해 MLP 스타일의 투영을 유지함  
  
### Mamba 동기 부여 - Temple Run으로 돌아가기  
  
- **상태(state)** 는 시스템의 미래 행동을 결정하는 데 필요한 변수들을 의미함  
- 상태는 과거에 대해 알아야 할 모든 것을 압축한 것으로, 마르코프 결정 과정으로 변환됨  
  
### 이산화 - 양자화된 세계에서 살아가기  
  
- 연속 시간 미분 방정식을 이산 시간 차분 방정식으로 변환하는 과정을 **이산화(discretisation)** 라고 함  
- Mamba는 제로-오더 홀드(ZOH) 이산화를 사용함  
  
### SSM 행렬 이해하기  
  
- A, B, C, D 행렬은 상태 전이, 새 입력을 상태에 매핑, 상태를 SSM 출력에 매핑, 새 입력을 출력에 통과시키는 역할을 함  
  
### 효율성 대 효과성: Attention is Focus, Selectivity is Prioritisation (주의는 집중이고, 선택성은 우선 순위 설정)  
  
- 트랜스포머는 매우 **효과적** 이지만 **효율적** 이지는 않음  
- Mamba 아키텍처는 효율성과 효과성의 파레토 최전선을 밀어내는 솔루션을 제공함  
  
### 선택 메커니즘  
  
- **선택성(Selectivity)** 은 각 토큰을 그것의 필요에 맞게 상태로 변환할 수 있게 함  
- Mamba는 A, B, C 행렬을 x의 함수로 만들어 정적이 아닌 컨텍스트 의존적으로 함  
  
### 선택성의 문제점  
  
- 선택 메커니즘을 적용하면 비선택적 SSM보다 계산이 느려질 수 있음  
- 하드웨어 최적화를 통해 Mamba는 비슷한 크기의 트랜스포머보다 빠르게 실행될 수 있음  
  
### 기계 학습과 정치 경제학 - 상태의 크기는 얼마나 커야 하는가?  
  
- 시퀀스 모델의 효율성 대 효과성 트레이드오프는 상태를 얼마나 잘 압축하는지에 의해 특징지어짐  
- 상태 표현이 중요하며, 상태를 선택적이고 동적으로 압축하는 것이 핵심임  
  
### 트랜스포머 대 Mamba의 정보 흐름  
  
- 트랜스포머는 훈련 데이터와 컨텍스트 데이터를 통해 학습함  
- Mamba는 훈련 데이터와 컨텍스트 데이터가 압축/필터링되어 접근 가능함  
  
### 새로운 프롬프팅 패러다임으로서의 상태 교체  
  
- Mamba와 같은 모델을 사용하면 전문 데이터를 통해 생성된 상태 라이브러리를 공유할 수 있음  
- 상태는 백프롭 없이 추론 시간에 무한한 컨텍스트 학습을 적용할 수 있음  
  
### Mamba와 메커니즘 해석 가능성  
  
- Mamba의 해석 가능성은 토큰 간의 정보 이동을 이해하는 것에 초점을 맞춤  
  
### Mamba와 SSM이 다음에 할 일  
  
- Mamba와 같은 모델은 매우 긴 컨텍스트와 장기 기억이 필요한 시나리오에서 뛰어난 성능을 발휘할 가능성이 있음  
  
### 에이전트와 AI 안전성  
  
- 언어 모델은 본질적으로 안전하지만, 장기적인 시퀀스 추론의 가능성은 에이전트 기반 AI 안전성의 중요성을 되살림  
  
### 트랜스포머와 Mamba의 최고의 협업  
  
- Mamba의 긴 컨텍스트와 트랜스포머의 짧은 시퀀스에 대한 고해상도를 결합하는 것이 가치가 있음  
  
### GN⁺의 의견  
  
- Mamba는 트랜스포머의 병목 현상을 해결하고 긴 시퀀스 처리에 효과적인 대안을 제시함  
- 이 기술은 특히 의료, 유전학, 자연어 처리 등 데이터의 긴 시퀀스가 중요한 분야에서 유용할 수 있음  
- Mamba의 선택 메커니즘이 실제로 효과적인지에 대한 추가 연구가 필요함  
- Mamba의 선택성은 트랜스포머가 제공하는 높은 정확도와 효율성 사이의 균형을 찾는 데 도움이 될 수 있음

## Comments


_No public comments on this page._