1P by neo 12일전 | favorite | 댓글 1개

하드웨어 가속화된 LLMs: 종합 조사 및 비교

  • LLM은 자연어 처리 작업에서 강력한 도구로 등장하여 인간과 같은 텍스트를 이해하고 생성하는 능력으로 이 분야를 혁신하고 있음
  • 이 논문에서는 하드웨어 가속기를 사용하여 대형 언어 모델을 위한 변환기 네트워크 가속화에 대한 여러 연구 노력을 종합적으로 조사하고 있음

프레임워크 및 비교

  • 제안된 프레임워크를 소개하고 기술, 처리 플랫폼(FPGA, ASIC, In-Memory, GPU), 속도 향상, 에너지 효율성, 성능(GOPs), 에너지 효율성(GOPs/W)에 대한 질적 및 양적 비교를 수행함
  • 주요 도전 과제는 각 제안된 스킴이 다른 공정 기술로 구현되어 공정한 비교가 어렵다는 점임
  • 이 논문의 주요 기여는 동일한 기술에서 성능과 에너지 효율성의 결과를 추정하여 공정한 비교를 가능하게 하는 것임

실험 및 결과

  • 여러 FPGA 칩에 LLMs의 일부를 구현하여 동일한 공정 기술로 결과를 추정하고 성능을 공정하게 비교함

GN⁺의 정리

  • 이 논문은 대형 언어 모델(LLMs)의 하드웨어 가속화에 대한 종합적인 조사를 제공함
  • 다양한 처리 플랫폼에서의 성능과 에너지 효율성을 비교하여 공정한 비교를 가능하게 함
  • FPGA 칩을 사용하여 실험을 통해 동일한 기술에서의 결과를 추정함
  • 자연어 처리 분야에서 LLMs의 성능 향상에 관심 있는 사람들에게 유용할 수 있음
  • 유사한 기능을 가진 다른 프로젝트로는 NVIDIA의 GPU 가속기와 Google의 TPU가 있음
Hacker News 의견
  • 1990년대부터 CPU 속도는 메모리 대역폭보다 빠르게 향상되었음

    • William Wulf와 Sally Mckee는 1995년에 "메모리 벽"을 예측했음
    • 지난 20년 동안 서버 하드웨어의 FLOPS는 2년마다 3배씩 증가했지만, DRAM과 인터커넥트 대역폭은 각각 1.6배, 1.4배씩 증가했음
    • LLM의 학습과 추론에서 성능 병목 현상은 점점 메모리 대역폭으로 이동하고 있음
    • 특히 자가회귀 Transformer 디코더 모델에서는 메모리 대역폭이 주요 병목 현상이 될 수 있음
    • Compute-in-memory (CIM) 또는 processing-in-memory (PIM) 같은 새로운 기술이 필요해지고 있음
    • CIM/PIM은 데이터를 CPU 레지스터로 전송하지 않고 메모리에서 직접 연산을 수행하여 지연 시간과 전력 소비를 개선함
    • 논문은 다양한 반도체 공정 크기에서 ASIC과 FPGA 하드웨어를 비교하기 위해 16nm 공정으로 성능을 추정함
    • CIM/PIM에 대한 추정은 하지 않았는데, 이는 성능이 공정 기술에만 의존하지 않기 때문임
    • 추가 정보는 아래 링크에서 확인 가능함
  • Systolic arrays에 대한 개인적인 선호가 있음

    • 수십 년 동안 여러 옵션을 검토한 후, 최적의 솔루션으로 Cartesian grid of cells를 선택했음
    • 각 셀은 4개의 입력 비트와 4개의 출력 비트를 가지고 있으며, 중앙에는 64비트의 시프트 레지스터가 있음
    • 그래프 색칠의 마법을 통해 모든 셀을 클록하여 데이터가 어느 방향으로든 흐를 수 있게 함
    • FPGA의 유연성을 가지면서 타이밍 문제나 레이스 조건을 걱정할 필요가 없음
    • 모든 연산은 병렬로 이루어짐
    • 이 아이디어는 1982년부터 가지고 있었으며, 누군가가 이 아이디어를 실행해주길 바람
    • 이 아이디어를 BitGrid라고 부름
    • 관련 논문은 여기에서 확인 가능함
  • WebGL에서 모든 것이 텍스처로 이루어진 LLM을 보고 싶음

    • 아키텍처의 차이를 시각적으로 보는 것이 재미있을 것 같음
  • Groq의 ASIC 기반 LPU의 성공을 설명함

    • Groq Cloud에서 LLM 추론이 매우 빠름
    • 에너지 소비 감소도 장점임
  • 메모리 이동이 요즘 병목 현상임

    • 따라서 고가의 HBM이 필요함
    • Nvidia의 디자인도 메모리 최적화가 되어 있음
  • FPGA + ASIC + in-mem 하이브리드 아키텍처가 확장성/유연성에 역할을 할 수 있을지 궁금함

    • 각각의 장점 (예: FPGA의 유연성, ASIC의 성능, in-memory의 에너지 효율성)을 통합하여 LLM 성능을 더욱 향상시킬 수 있을지 궁금함
  • LLM이 전구와 같은 전력으로 실행되는 논문이 있었음

  • Arxiv에서 콘텐츠를 "잘" 읽는 방법이 있는지 궁금함

    • 사이트 인터페이스에 혼란스러워서 콘텐츠를 보지 않고 떠나는 경우가 많음
  • "in-memory"가 CPU와 RAM을 결합한 특수 하드웨어인지 궁금함