# LLM 하드웨어 가속: 종합 조사 및 비교

> Clean Markdown view of GeekNews topic #16659. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16659](https://news.hada.io/topic?id=16659)
- GeekNews Markdown: [https://news.hada.io/topic/16659.md](https://news.hada.io/topic/16659.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-09-08T09:49:59+09:00
- Updated: 2024-09-08T09:49:59+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2409.03384)
- Points: 1
- Comments: 1

## Topic Body

### 하드웨어 가속화된 LLMs: 종합 조사 및 비교  
  
- LLM은 자연어 처리 작업에서 강력한 도구로 등장하여 인간과 같은 텍스트를 이해하고 생성하는 능력으로 이 분야를 혁신하고 있음  
- 이 논문에서는 하드웨어 가속기를 사용하여 대형 언어 모델을 위한 변환기 네트워크 가속화에 대한 여러 연구 노력을 종합적으로 조사하고 있음  
  
#### 프레임워크 및 비교  
- 제안된 프레임워크를 소개하고 기술, 처리 플랫폼(FPGA, ASIC, In-Memory, GPU), 속도 향상, 에너지 효율성, 성능(GOPs), 에너지 효율성(GOPs/W)에 대한 질적 및 양적 비교를 수행함  
- 주요 도전 과제는 각 제안된 스킴이 다른 공정 기술로 구현되어 공정한 비교가 어렵다는 점임  
- 이 논문의 주요 기여는 동일한 기술에서 성능과 에너지 효율성의 결과를 추정하여 공정한 비교를 가능하게 하는 것임  
  
#### 실험 및 결과  
- 여러 FPGA 칩에 LLMs의 일부를 구현하여 동일한 공정 기술로 결과를 추정하고 성능을 공정하게 비교함  
  
### GN⁺의 정리  
- 이 논문은 대형 언어 모델(LLMs)의 하드웨어 가속화에 대한 종합적인 조사를 제공함  
- 다양한 처리 플랫폼에서의 성능과 에너지 효율성을 비교하여 공정한 비교를 가능하게 함  
- FPGA 칩을 사용하여 실험을 통해 동일한 기술에서의 결과를 추정함  
- 자연어 처리 분야에서 LLMs의 성능 향상에 관심 있는 사람들에게 유용할 수 있음  
- 유사한 기능을 가진 다른 프로젝트로는 NVIDIA의 GPU 가속기와 Google의 TPU가 있음

## Comments


### Comment 28691

- Author: neo
- Created: 2024-09-08T09:49:59+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41470074) 
- 1990년대부터 CPU 속도는 메모리 대역폭보다 빠르게 향상되었음
  - William Wulf와 Sally Mckee는 1995년에 "메모리 벽"을 예측했음
  - 지난 20년 동안 서버 하드웨어의 FLOPS는 2년마다 3배씩 증가했지만, DRAM과 인터커넥트 대역폭은 각각 1.6배, 1.4배씩 증가했음
  - LLM의 학습과 추론에서 성능 병목 현상은 점점 메모리 대역폭으로 이동하고 있음
  - 특히 자가회귀 Transformer 디코더 모델에서는 메모리 대역폭이 주요 병목 현상이 될 수 있음
  - Compute-in-memory (CIM) 또는 processing-in-memory (PIM) 같은 새로운 기술이 필요해지고 있음
  - CIM/PIM은 데이터를 CPU 레지스터로 전송하지 않고 메모리에서 직접 연산을 수행하여 지연 시간과 전력 소비를 개선함
  - 논문은 다양한 반도체 공정 크기에서 ASIC과 FPGA 하드웨어를 비교하기 위해 16nm 공정으로 성능을 추정함
  - CIM/PIM에 대한 추정은 하지 않았는데, 이는 성능이 공정 기술에만 의존하지 않기 때문임
  - 추가 정보는 아래 링크에서 확인 가능함
    - [arxiv.org](https://arxiv.org/abs/2403.14123)
    - [Wikipedia](https://en.m.wikipedia.org/wiki/In-memory_processing)
    - [vcl.ece.ucdavis.edu](http://vcl.ece.ucdavis.edu/pubs/2017.02.VLSIintegration.TechScale/)

- Systolic arrays에 대한 개인적인 선호가 있음
  - 수십 년 동안 여러 옵션을 검토한 후, 최적의 솔루션으로 Cartesian grid of cells를 선택했음
  - 각 셀은 4개의 입력 비트와 4개의 출력 비트를 가지고 있으며, 중앙에는 64비트의 시프트 레지스터가 있음
  - 그래프 색칠의 마법을 통해 모든 셀을 클록하여 데이터가 어느 방향으로든 흐를 수 있게 함
  - FPGA의 유연성을 가지면서 타이밍 문제나 레이스 조건을 걱정할 필요가 없음
  - 모든 연산은 병렬로 이루어짐
  - 이 아이디어는 1982년부터 가지고 있었으며, 누군가가 이 아이디어를 실행해주길 바람
  - 이 아이디어를 BitGrid라고 부름
  - 관련 논문은 [여기](https://arxiv.org/pdf/2406.08413)에서 확인 가능함

- WebGL에서 모든 것이 텍스처로 이루어진 LLM을 보고 싶음
  - 아키텍처의 차이를 시각적으로 보는 것이 재미있을 것 같음

- Groq의 ASIC 기반 LPU의 성공을 설명함
  - Groq Cloud에서 LLM 추론이 매우 빠름
  - 에너지 소비 감소도 장점임

- 메모리 이동이 요즘 병목 현상임
  - 따라서 고가의 HBM이 필요함
  - Nvidia의 디자인도 메모리 최적화가 되어 있음

- FPGA + ASIC + in-mem 하이브리드 아키텍처가 확장성/유연성에 역할을 할 수 있을지 궁금함
  - 각각의 장점 (예: FPGA의 유연성, ASIC의 성능, in-memory의 에너지 효율성)을 통합하여 LLM 성능을 더욱 향상시킬 수 있을지 궁금함

- LLM이 전구와 같은 전력으로 실행되는 논문이 있었음
  - [arxiv.org](https://arxiv.org/abs/2406.02528)
  - [news.ucsc.edu](https://news.ucsc.edu/2024/06/matmul-free-llm.html)

- Arxiv에서 콘텐츠를 "잘" 읽는 방법이 있는지 궁금함
  - 사이트 인터페이스에 혼란스러워서 콘텐츠를 보지 않고 떠나는 경우가 많음

- "in-memory"가 CPU와 RAM을 결합한 특수 하드웨어인지 궁금함