Low-Bit LLM을 위한 상용 DRAM에서 구현된 매트릭스-벡터 곱셈

(arxiv.org)

1P by GN⁺ 4달전 | ★ favorite | 댓글 1개

MVDRAM은 수정되지 않은 DRAM을 사용하여 저비트 LLM 추론을 위한 GeMV 연산을 가속화하는 시스템임
DRAM을 GeMV 엔진으로 활용하여 높은 처리량을 제공함
기존 PUD 접근 방식의 입력 사전 배열 및 출력 비트 전환 비용을 제거함
실험 결과, 저비트 LLM에서 프로세서 기반 구현보다 뛰어난 성능을 보임
AI 하드웨어의 새로운 가능성을 제시함

MVDRAM: 수정되지 않은 DRAM을 활용한 저비트 LLM 가속

GeMV 연산은 대형 언어 모델(LLM) 추론에서 중요한 지연 병목 현상으로 남아 있음
**Processing-Using-DRAM (PUD)**는 DRAM을 GeMV 엔진으로 재활용할 수 있는 잠재력을 가짐
그러나 PUD를 LLM 추론 파이프라인에 적용하면 상당한 오버헤드가 발생함

MVDRAM의 혁신적인 접근

MVDRAM은 데이터 공유 패턴과 수학적 선형성을 활용하여 프로세서와 DRAM을 조율함
기존 PUD 접근 방식의 비용을 제거하여 GeMV 연산을 가속화함

실험 결과

네 개의 DDR4 DRAM 모듈을 사용한 실험에서 MVDRAM은 저비트(4비트 이하) LLM에서 프로세서 기반 구현보다 뛰어난 성능을 보임
최대 7.29배의 속도 향상과 30.5배의 에너지 효율성을 달성함

LLM 추론의 전반적인 개선

2비트 및 4비트 양자화 저비트 모델에서 각각 2.18배 및 1.31배의 처리량 개선을 보임
에너지 효율성도 각각 3.04배 및 2.35배 향상됨

AI 하드웨어의 새로운 가능성

MVDRAM은 표준 DRAM을 LLM 가속기로 활용할 수 있는 가능성을 입증함
AI 하드웨어의 새로운 지평을 열 수 있는 잠재력을 가짐

▲

GN⁺ 4달전 [-]

Hacker News 의견

DRAM 내 연산에 대한 초기 제안 중 하나에 대한 정보가 있음
- 상용 부품을 사용한 첫 번째 시연이 있음
- DRAM Bender라는 도구를 사용하여 구현 중임
- DRAM 내 처리에 대한 최근 발전에 대한 논문이 있음
참조 1과 3의 저자 목록이 매우 길다는 점을 주목한 사람이 있음
- 2016년 기사에 대한 기대가 있었으나 포함되지 않음
- 2019년 기사는 포함되어 있음
- DRAM의 사양 외 행동, 특히 복사 기능이 악명 높은 버그와 관련이 있음
DRAM 명령을 의도적으로 제조업체가 지정한 타이밍 매개변수를 위반하여 발행함으로써 대규모 병렬 처리를 달성할 수 있음
- DRAM 훈련을 위한 바이너리 블롭에 대한 도전임
이 아이디어는 매우 독창적이고 창의적임
- 세부적인 부분에서 일하는 것이 보람이 있을 수 있음
하드웨어 세계에서 버그를 이용하는 것이 위험할 수 있음
- 소프트웨어 세계에서는 플랫폼의 버그를 이용하여 기능을 활성화하는 것이 좋지 않음
- 버그가 수정되면 시스템이 예기치 않게 작동할 수 있음
DRAM 자체에서 행렬 연산을 수행하고 있음
- 매우 흥미롭고 놀라운 아이디어임
일반 행렬-벡터 곱셈(GeMV)에 대한 언급이 있음
- 수학적 이해가 부족한 사람도 있음
- 쿼터니언이 행렬보다 계산적으로 덜 복잡하여 인기를 끌었음
- 쿼터니언을 사용하여 LLM을 구축한 사례가 있는지 궁금해하는 사람도 있음
1997년의 원래 Intelligent RAM(IRAM) 소스를 인용하지 않은 점이 비과학적이라고 지적하는 의견이 있음
행렬 곱셈과 기타 연산이 전통적인 CPU에서 DRAM으로 이동할 가능성이 있는지 궁금해하는 사람이 있음
- 이러한 처리 이동이 삼성 등에게 이점을 줄 수 있는지에 대한 질문이 있음
- NVIDIA 등은 어떻게 될 것인지에 대한 궁금증이 있음
대규모 LLM을 위한 저렴한 추론 장치를 만드는 멋진 방법이 될 수 있음

답변달기