▲GN⁺ 2024-04-02 | parent | ★ favorite | on: LLaMA, 이제 CPU에서 더 빠른 속도로 작동(justine.lol)Hacker News 의견 Fortran SGEMM 구현에 대한 의견: 현대의 Fortran 컴파일러는 추가적인 변경 없이도 AVX와 FMA 최적화를 적용할 수 있음. 루프 언롤링(loop unrolling) 최적화는 컴파일러 플래그(-funroll-all-loops)를 통해 가능. Intel 컴파일러는 사용자의 명시적 요청 없이도 루프 언롤링을 수행. Fortran 77 소스에 병렬화를 추가하는 것은 어려울 수 있지만, OpenMP 구문을 추가하거나 현대 Fortran의 병렬화 구조를 사용할 수 있음. Fortran 77 함수를 과소평가하지 말 것. 플랫폼 특정 세부 사항으로부터 개발자를 해방시키고 컴파일러에게 작업을 맡기는 것이 Fortran의 목적임. cuBLAS 대체에 대한 의견: cuBLAS를 CUDA 내에서 다시 작성하려는 시도로 보임. 다음 단계는 CUDA 의존성을 제거하고 Vulkan이나 Metal 컴퓨트 셰이더를 직접 사용하는 것일 수 있음. LLM(Local Language Model) 실행에 대한 의견: 모든 사람이 최소한의 요구 사항으로도 로컬에서 LLM을 다운로드하고 실행할 수 있어야 함. 이는 인간 지식의 큰 부분을 백업하는 역할을 할 수 있음. 성능 측정에 대한 의견: C++를 사용하여 서브루틴을 정의하는 것을 선호함. C++는 Python보다 세 오더 이상 빠름. 성능 차이를 "무어의 법칙의 연도"로 측정하는 아이디어를 좋아함. 관련 링크 제공: 성능 개선과 관련된 자료로 UTexas LAFF와 Nadav Rotem의 Gist를 참조할 것. 제목에 대한 의견: 제목이 혼란스러움. 처음에는 모델이 CPU에서 GPU보다 빠르다고 주장하는 것으로 오해할 수 있음. "LLaMa on CPU의 성능 개선"과 같이 더 명확한 제목이 좋을 것. MKL-DNN 대비 성능 개선에 대한 의견: 제한된 행렬 크기에 대해 MKL-DNN을 능가하려 했지만 실패한 경험이 있음. CPU에서 이러한 에너지 효율성은 물리적으로 불가능함. LLM 실행에 대한 의견: 큰 컴퓨터 없이도 큰 언어 모델을 실행할 수 있음. 작은 파라미터 모델을 실행하는 것도 기술적으로 언어 모델 실행에 해당하지만, 대부분의 사람들이 유용하다고 생각하는 기준을 충족하지 못할 수 있음. Pixar의 CPU 사용에 대한 의견: Pixar와 같은 대형 스튜디오가 비용/성능 및 더 큰 RAM 접근성 때문에 영화 렌더링에 CPU를 사용함. 관련 뉴스 링크 제공. AMD Zen4와 AVX512에 대한 의견: 7995WX x86 ISA는 M2 Ultra ARM ISA보다 가격은 두 배지만, 7배 더 많은 원시 컴퓨팅 파워를 제공하며, 토큰 생성 속도도 거의 동일함. 이는 384MB L3 캐시 덕분일 가능성이 있음. Zen4에서 LLaMA를 이전보다 2.8배 빠르게 실행할 수 있게 하는 작업을 수행함.
Hacker News 의견
Fortran
SGEMM구현에 대한 의견:-funroll-all-loops)를 통해 가능.cuBLAS 대체에 대한 의견:
LLM(Local Language Model) 실행에 대한 의견:
성능 측정에 대한 의견:
관련 링크 제공:
제목에 대한 의견:
MKL-DNN 대비 성능 개선에 대한 의견:
LLM 실행에 대한 의견:
Pixar의 CPU 사용에 대한 의견:
AMD Zen4와 AVX512에 대한 의견: