Low-Bit LLM을 위한 상용 DRAM에서 구현된 매트릭스-벡터 곱셈
(arxiv.org)- MVDRAM은 수정되지 않은 DRAM을 사용하여 저비트 LLM 추론을 위한 GeMV 연산을 가속화하는 시스템임
- DRAM을 GeMV 엔진으로 활용하여 높은 처리량을 제공함
- 기존 PUD 접근 방식의 입력 사전 배열 및 출력 비트 전환 비용을 제거함
- 실험 결과, 저비트 LLM에서 프로세서 기반 구현보다 뛰어난 성능을 보임
- AI 하드웨어의 새로운 가능성을 제시함
MVDRAM: 수정되지 않은 DRAM을 활용한 저비트 LLM 가속
- GeMV 연산은 대형 언어 모델(LLM) 추론에서 중요한 지연 병목 현상으로 남아 있음
- **Processing-Using-DRAM (PUD)**는 DRAM을 GeMV 엔진으로 재활용할 수 있는 잠재력을 가짐
- 그러나 PUD를 LLM 추론 파이프라인에 적용하면 상당한 오버헤드가 발생함
MVDRAM의 혁신적인 접근
- MVDRAM은 데이터 공유 패턴과 수학적 선형성을 활용하여 프로세서와 DRAM을 조율함
- 기존 PUD 접근 방식의 비용을 제거하여 GeMV 연산을 가속화함
실험 결과
- 네 개의 DDR4 DRAM 모듈을 사용한 실험에서 MVDRAM은 저비트(4비트 이하) LLM에서 프로세서 기반 구현보다 뛰어난 성능을 보임
- 최대 7.29배의 속도 향상과 30.5배의 에너지 효율성을 달성함
LLM 추론의 전반적인 개선
- 2비트 및 4비트 양자화 저비트 모델에서 각각 2.18배 및 1.31배의 처리량 개선을 보임
- 에너지 효율성도 각각 3.04배 및 2.35배 향상됨
AI 하드웨어의 새로운 가능성
- MVDRAM은 표준 DRAM을 LLM 가속기로 활용할 수 있는 가능성을 입증함
- AI 하드웨어의 새로운 지평을 열 수 있는 잠재력을 가짐
Hacker News 의견
-
DRAM 내 연산에 대한 초기 제안 중 하나에 대한 정보가 있음
- 상용 부품을 사용한 첫 번째 시연이 있음
- DRAM Bender라는 도구를 사용하여 구현 중임
- DRAM 내 처리에 대한 최근 발전에 대한 논문이 있음
-
참조 1과 3의 저자 목록이 매우 길다는 점을 주목한 사람이 있음
- 2016년 기사에 대한 기대가 있었으나 포함되지 않음
- 2019년 기사는 포함되어 있음
- DRAM의 사양 외 행동, 특히 복사 기능이 악명 높은 버그와 관련이 있음
-
DRAM 명령을 의도적으로 제조업체가 지정한 타이밍 매개변수를 위반하여 발행함으로써 대규모 병렬 처리를 달성할 수 있음
- DRAM 훈련을 위한 바이너리 블롭에 대한 도전임
-
이 아이디어는 매우 독창적이고 창의적임
- 세부적인 부분에서 일하는 것이 보람이 있을 수 있음
-
하드웨어 세계에서 버그를 이용하는 것이 위험할 수 있음
- 소프트웨어 세계에서는 플랫폼의 버그를 이용하여 기능을 활성화하는 것이 좋지 않음
- 버그가 수정되면 시스템이 예기치 않게 작동할 수 있음
-
DRAM 자체에서 행렬 연산을 수행하고 있음
- 매우 흥미롭고 놀라운 아이디어임
-
일반 행렬-벡터 곱셈(GeMV)에 대한 언급이 있음
- 수학적 이해가 부족한 사람도 있음
- 쿼터니언이 행렬보다 계산적으로 덜 복잡하여 인기를 끌었음
- 쿼터니언을 사용하여 LLM을 구축한 사례가 있는지 궁금해하는 사람도 있음
-
1997년의 원래 Intelligent RAM(IRAM) 소스를 인용하지 않은 점이 비과학적이라고 지적하는 의견이 있음
-
행렬 곱셈과 기타 연산이 전통적인 CPU에서 DRAM으로 이동할 가능성이 있는지 궁금해하는 사람이 있음
- 이러한 처리 이동이 삼성 등에게 이점을 줄 수 있는지에 대한 질문이 있음
- NVIDIA 등은 어떻게 될 것인지에 대한 궁금증이 있음
-
대규모 LLM을 위한 저렴한 추론 장치를 만드는 멋진 방법이 될 수 있음