# Low-Bit LLM을 위한 상용 DRAM에서 구현된 매트릭스-벡터 곱셈

> Clean Markdown view of GeekNews topic #20725. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20725](https://news.hada.io/topic?id=20725)
- GeekNews Markdown: [https://news.hada.io/topic/20725.md](https://news.hada.io/topic/20725.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-05-06T10:17:18+09:00
- Updated: 2025-05-06T10:17:18+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2503.23817)
- Points: 1
- Comments: 1

## Topic Body

- MVDRAM은 수정되지 않은 DRAM을 사용하여 저비트 LLM 추론을 위한 GeMV 연산을 가속화하는 시스템임
- DRAM을 GeMV 엔진으로 활용하여 높은 처리량을 제공함
- 기존 PUD 접근 방식의 입력 사전 배열 및 출력 비트 전환 비용을 제거함
- 실험 결과, 저비트 LLM에서 프로세서 기반 구현보다 뛰어난 성능을 보임
- AI 하드웨어의 새로운 가능성을 제시함

---

### MVDRAM: 수정되지 않은 DRAM을 활용한 저비트 LLM 가속

- **GeMV 연산**은 대형 언어 모델(LLM) 추론에서 중요한 지연 병목 현상으로 남아 있음
- **Processing-Using-DRAM (PUD)**는 DRAM을 GeMV 엔진으로 재활용할 수 있는 잠재력을 가짐
- 그러나 PUD를 LLM 추론 파이프라인에 적용하면 상당한 오버헤드가 발생함

### MVDRAM의 혁신적인 접근

- MVDRAM은 **데이터 공유 패턴**과 **수학적 선형성**을 활용하여 프로세서와 DRAM을 조율함
- 기존 PUD 접근 방식의 비용을 제거하여 GeMV 연산을 가속화함

### 실험 결과

- 네 개의 DDR4 DRAM 모듈을 사용한 실험에서 MVDRAM은 저비트(4비트 이하) LLM에서 프로세서 기반 구현보다 뛰어난 성능을 보임
- 최대 7.29배의 속도 향상과 30.5배의 에너지 효율성을 달성함

### LLM 추론의 전반적인 개선

- 2비트 및 4비트 양자화 저비트 모델에서 각각 2.18배 및 1.31배의 처리량 개선을 보임
- 에너지 효율성도 각각 3.04배 및 2.35배 향상됨

### AI 하드웨어의 새로운 가능성

- MVDRAM은 표준 DRAM을 LLM 가속기로 활용할 수 있는 가능성을 입증함
- AI 하드웨어의 새로운 지평을 열 수 있는 잠재력을 가짐

## Comments


### Comment 38210

- Author: neo
- Created: 2025-05-06T10:17:18+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43890538) 
- DRAM 내 연산에 대한 초기 제안 중 하나에 대한 정보가 있음
  - 상용 부품을 사용한 첫 번째 시연이 있음
  - DRAM Bender라는 도구를 사용하여 구현 중임
  - DRAM 내 처리에 대한 최근 발전에 대한 논문이 있음

- 참조 1과 3의 저자 목록이 매우 길다는 점을 주목한 사람이 있음
  - 2016년 기사에 대한 기대가 있었으나 포함되지 않음
  - 2019년 기사는 포함되어 있음
  - DRAM의 사양 외 행동, 특히 복사 기능이 악명 높은 버그와 관련이 있음

- DRAM 명령을 의도적으로 제조업체가 지정한 타이밍 매개변수를 위반하여 발행함으로써 대규모 병렬 처리를 달성할 수 있음
  - DRAM 훈련을 위한 바이너리 블롭에 대한 도전임

- 이 아이디어는 매우 독창적이고 창의적임
  - 세부적인 부분에서 일하는 것이 보람이 있을 수 있음

- 하드웨어 세계에서 버그를 이용하는 것이 위험할 수 있음
  - 소프트웨어 세계에서는 플랫폼의 버그를 이용하여 기능을 활성화하는 것이 좋지 않음
  - 버그가 수정되면 시스템이 예기치 않게 작동할 수 있음

- DRAM 자체에서 행렬 연산을 수행하고 있음
  - 매우 흥미롭고 놀라운 아이디어임

- 일반 행렬-벡터 곱셈(GeMV)에 대한 언급이 있음
  - 수학적 이해가 부족한 사람도 있음
  - 쿼터니언이 행렬보다 계산적으로 덜 복잡하여 인기를 끌었음
  - 쿼터니언을 사용하여 LLM을 구축한 사례가 있는지 궁금해하는 사람도 있음

- 1997년의 원래 Intelligent RAM(IRAM) 소스를 인용하지 않은 점이 비과학적이라고 지적하는 의견이 있음

- 행렬 곱셈과 기타 연산이 전통적인 CPU에서 DRAM으로 이동할 가능성이 있는지 궁금해하는 사람이 있음
  - 이러한 처리 이동이 삼성 등에게 이점을 줄 수 있는지에 대한 질문이 있음
  - NVIDIA 등은 어떻게 될 것인지에 대한 궁금증이 있음

- 대규모 LLM을 위한 저렴한 추론 장치를 만드는 멋진 방법이 될 수 있음