GN⁺: LLM 하드웨어 가속: 종합 조사 및 비교
(arxiv.org)하드웨어 가속화된 LLMs: 종합 조사 및 비교
- LLM은 자연어 처리 작업에서 강력한 도구로 등장하여 인간과 같은 텍스트를 이해하고 생성하는 능력으로 이 분야를 혁신하고 있음
- 이 논문에서는 하드웨어 가속기를 사용하여 대형 언어 모델을 위한 변환기 네트워크 가속화에 대한 여러 연구 노력을 종합적으로 조사하고 있음
프레임워크 및 비교
- 제안된 프레임워크를 소개하고 기술, 처리 플랫폼(FPGA, ASIC, In-Memory, GPU), 속도 향상, 에너지 효율성, 성능(GOPs), 에너지 효율성(GOPs/W)에 대한 질적 및 양적 비교를 수행함
- 주요 도전 과제는 각 제안된 스킴이 다른 공정 기술로 구현되어 공정한 비교가 어렵다는 점임
- 이 논문의 주요 기여는 동일한 기술에서 성능과 에너지 효율성의 결과를 추정하여 공정한 비교를 가능하게 하는 것임
실험 및 결과
- 여러 FPGA 칩에 LLMs의 일부를 구현하여 동일한 공정 기술로 결과를 추정하고 성능을 공정하게 비교함
GN⁺의 정리
- 이 논문은 대형 언어 모델(LLMs)의 하드웨어 가속화에 대한 종합적인 조사를 제공함
- 다양한 처리 플랫폼에서의 성능과 에너지 효율성을 비교하여 공정한 비교를 가능하게 함
- FPGA 칩을 사용하여 실험을 통해 동일한 기술에서의 결과를 추정함
- 자연어 처리 분야에서 LLMs의 성능 향상에 관심 있는 사람들에게 유용할 수 있음
- 유사한 기능을 가진 다른 프로젝트로는 NVIDIA의 GPU 가속기와 Google의 TPU가 있음
Hacker News 의견
-
1990년대부터 CPU 속도는 메모리 대역폭보다 빠르게 향상되었음
- William Wulf와 Sally Mckee는 1995년에 "메모리 벽"을 예측했음
- 지난 20년 동안 서버 하드웨어의 FLOPS는 2년마다 3배씩 증가했지만, DRAM과 인터커넥트 대역폭은 각각 1.6배, 1.4배씩 증가했음
- LLM의 학습과 추론에서 성능 병목 현상은 점점 메모리 대역폭으로 이동하고 있음
- 특히 자가회귀 Transformer 디코더 모델에서는 메모리 대역폭이 주요 병목 현상이 될 수 있음
- Compute-in-memory (CIM) 또는 processing-in-memory (PIM) 같은 새로운 기술이 필요해지고 있음
- CIM/PIM은 데이터를 CPU 레지스터로 전송하지 않고 메모리에서 직접 연산을 수행하여 지연 시간과 전력 소비를 개선함
- 논문은 다양한 반도체 공정 크기에서 ASIC과 FPGA 하드웨어를 비교하기 위해 16nm 공정으로 성능을 추정함
- CIM/PIM에 대한 추정은 하지 않았는데, 이는 성능이 공정 기술에만 의존하지 않기 때문임
- 추가 정보는 아래 링크에서 확인 가능함
-
Systolic arrays에 대한 개인적인 선호가 있음
- 수십 년 동안 여러 옵션을 검토한 후, 최적의 솔루션으로 Cartesian grid of cells를 선택했음
- 각 셀은 4개의 입력 비트와 4개의 출력 비트를 가지고 있으며, 중앙에는 64비트의 시프트 레지스터가 있음
- 그래프 색칠의 마법을 통해 모든 셀을 클록하여 데이터가 어느 방향으로든 흐를 수 있게 함
- FPGA의 유연성을 가지면서 타이밍 문제나 레이스 조건을 걱정할 필요가 없음
- 모든 연산은 병렬로 이루어짐
- 이 아이디어는 1982년부터 가지고 있었으며, 누군가가 이 아이디어를 실행해주길 바람
- 이 아이디어를 BitGrid라고 부름
- 관련 논문은 여기에서 확인 가능함
-
WebGL에서 모든 것이 텍스처로 이루어진 LLM을 보고 싶음
- 아키텍처의 차이를 시각적으로 보는 것이 재미있을 것 같음
-
Groq의 ASIC 기반 LPU의 성공을 설명함
- Groq Cloud에서 LLM 추론이 매우 빠름
- 에너지 소비 감소도 장점임
-
메모리 이동이 요즘 병목 현상임
- 따라서 고가의 HBM이 필요함
- Nvidia의 디자인도 메모리 최적화가 되어 있음
-
FPGA + ASIC + in-mem 하이브리드 아키텍처가 확장성/유연성에 역할을 할 수 있을지 궁금함
- 각각의 장점 (예: FPGA의 유연성, ASIC의 성능, in-memory의 에너지 효율성)을 통합하여 LLM 성능을 더욱 향상시킬 수 있을지 궁금함
-
LLM이 전구와 같은 전력으로 실행되는 논문이 있었음
-
Arxiv에서 콘텐츠를 "잘" 읽는 방법이 있는지 궁금함
- 사이트 인터페이스에 혼란스러워서 콘텐츠를 보지 않고 떠나는 경우가 많음
-
"in-memory"가 CPU와 RAM을 결합한 특수 하드웨어인지 궁금함