LLaMA, 이제 CPU에서 더 빠른 속도로 작동

▲

GN⁺ 2024-04-02 | parent | ★ favorite | on: LLaMA, 이제 CPU에서 더 빠른 속도로 작동(justine.lol)

Hacker News 의견

Fortran SGEMM 구현에 대한 의견:
- 현대의 Fortran 컴파일러는 추가적인 변경 없이도 AVX와 FMA 최적화를 적용할 수 있음.
- 루프 언롤링(loop unrolling) 최적화는 컴파일러 플래그(-funroll-all-loops)를 통해 가능.
- Intel 컴파일러는 사용자의 명시적 요청 없이도 루프 언롤링을 수행.
- Fortran 77 소스에 병렬화를 추가하는 것은 어려울 수 있지만, OpenMP 구문을 추가하거나 현대 Fortran의 병렬화 구조를 사용할 수 있음.
- Fortran 77 함수를 과소평가하지 말 것. 플랫폼 특정 세부 사항으로부터 개발자를 해방시키고 컴파일러에게 작업을 맡기는 것이 Fortran의 목적임.
cuBLAS 대체에 대한 의견:
- cuBLAS를 CUDA 내에서 다시 작성하려는 시도로 보임.
- 다음 단계는 CUDA 의존성을 제거하고 Vulkan이나 Metal 컴퓨트 셰이더를 직접 사용하는 것일 수 있음.
LLM(Local Language Model) 실행에 대한 의견:
- 모든 사람이 최소한의 요구 사항으로도 로컬에서 LLM을 다운로드하고 실행할 수 있어야 함.
- 이는 인간 지식의 큰 부분을 백업하는 역할을 할 수 있음.
성능 측정에 대한 의견:
- C++를 사용하여 서브루틴을 정의하는 것을 선호함. C++는 Python보다 세 오더 이상 빠름.
- 성능 차이를 "무어의 법칙의 연도"로 측정하는 아이디어를 좋아함.
관련 링크 제공:
- 성능 개선과 관련된 자료로 UTexas LAFF와 Nadav Rotem의 Gist를 참조할 것.
제목에 대한 의견:
- 제목이 혼란스러움. 처음에는 모델이 CPU에서 GPU보다 빠르다고 주장하는 것으로 오해할 수 있음.
- "LLaMa on CPU의 성능 개선"과 같이 더 명확한 제목이 좋을 것.
MKL-DNN 대비 성능 개선에 대한 의견:
- 제한된 행렬 크기에 대해 MKL-DNN을 능가하려 했지만 실패한 경험이 있음.
- CPU에서 이러한 에너지 효율성은 물리적으로 불가능함.
LLM 실행에 대한 의견:
- 큰 컴퓨터 없이도 큰 언어 모델을 실행할 수 있음.
- 작은 파라미터 모델을 실행하는 것도 기술적으로 언어 모델 실행에 해당하지만, 대부분의 사람들이 유용하다고 생각하는 기준을 충족하지 못할 수 있음.
Pixar의 CPU 사용에 대한 의견:
- Pixar와 같은 대형 스튜디오가 비용/성능 및 더 큰 RAM 접근성 때문에 영화 렌더링에 CPU를 사용함.
- 관련 뉴스 링크 제공.
AMD Zen4와 AVX512에 대한 의견:
- 7995WX x86 ISA는 M2 Ultra ARM ISA보다 가격은 두 배지만, 7배 더 많은 원시 컴퓨팅 파워를 제공하며, 토큰 생성 속도도 거의 동일함.
- 이는 384MB L3 캐시 덕분일 가능성이 있음.
- Zen4에서 LLaMA를 이전보다 2.8배 빠르게 실행할 수 있게 하는 작업을 수행함.