동적 길이 부동소수를 통한 효율적인 GPU 추론을 위한 무손실 LLM 압축

(arxiv.org)

2P by GN⁺ 2달전 | ★ favorite | 댓글 1개

DFloat11은 대형 언어 모델(LLM)의 크기를 30% 줄이면서도 원본 모델과 비트 단위로 동일한 출력을 유지하는 손실 없는 압축 프레임워크임
BFloat16 가중치 표현의 낮은 엔트로피를 활용하여 기존 저장 형식의 비효율성을 개선함
GPU에서 효율적인 추론을 위해 맞춤형 GPU 커널을 개발하여 빠른 온라인 압축 해제를 지원함
Llama-3.1, Qwen-2.5, Gemma-3 등의 최신 모델에서 실험을 통해 30% 모델 크기 감소와 정확한 출력 유지를 검증함
고정된 GPU 메모리 예산으로 비압축 모델보다 5.3-13.17배 긴 컨텍스트 길이를 가능하게 함

70% 크기, 100% 정확도: 효율적인 GPU 추론을 위한 손실 없는 LLM 압축

대형 언어 모델(LLM)의 크기가 급격히 증가하여 자원 제한 하드웨어에서의 효율적인 배포에 큰 도전이 됨
**Dynamic-Length Float (DFloat11)**은 LLM의 크기를 30% 줄이면서도 비트 단위로 동일한 출력을 유지하는 손실 없는 압축 프레임워크임
BFloat16 가중치 표현의 낮은 엔트로피를 활용하여 기존 저장 형식의 비효율성을 개선함
엔트로피 코딩을 적용하여 빈도에 따라 가중치에 동적 길이 인코딩을 할당하여 정보 최적의 압축을 달성함
효율적인 추론을 위해 맞춤형 GPU 커널을 개발하여 빠른 온라인 압축 해제를 지원함

DFloat11의 설계

메모리 집약적인 조회 테이블(LUT)을 GPU SRAM에 맞는 압축된 LUT로 분해함
경량 보조 변수를 사용하여 스레드 읽기/쓰기 위치를 조정하는 2단계 커널을 개발함
변환기 블록 수준의 압축 해제를 통해 지연 시간을 최소화함

실험 결과

Llama-3.1, Qwen-2.5, Gemma-3 등의 최신 모델에서 DFloat11이 30% 모델 크기 감소와 정확한 출력 유지를 검증함
비압축 모델의 일부를 CPU로 오프로드하는 대안과 비교하여 1.9-38.8배 높은 처리량을 달성함
고정된 GPU 메모리 예산으로 비압축 모델보다 5.3-13.17배 긴 컨텍스트 길이를 가능하게 함

DFloat11의 장점

Llama-3.1-405B, 810GB 모델을 8x80GB GPU가 장착된 단일 노드에서 손실 없는 추론을 가능하게 함
코드와 모델은 공개 URL에서 제공됨

▲

GN⁺ 2달전 [-]

Hacker News 의견

bfloat16의 높은 동적 범위는 대부분 사용되지 않음
- 사람들은 0.01 같은 하이퍼파라미터를 선호함
- 네트워크의 모든 요소를 10^6으로 곱해도 큰 차이가 없음
- bfloat16 값의 전형적인 엔트로피는 10-12 비트임
- 부호와 가수 비트는 압축할 수 없는 노이즈임
- Martin Burtscher의 연구실, LLNL의 fpzip, Facebook의 dietgpu 등에서 손실 없는 압축 기술이 사용됨
- rANS는 SIMD 명령어 집합에서 Huffman 코딩보다 효율적임
405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성
- 연구소와 스타트업에 큰 기회 제공
ML/트랜스포머 모델의 빠른 발전에 감사함
- llama.cpp가 cublas를 잘 활용하는지 궁금함
무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임
- 최적의 무게 형식에 맞춘 매트릭스 곱셈 하드웨어 필요
실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움
- dfloat11이 비용 절감에 도움을 줄 수 있음
xmad.ai에서 일함
기술 발전 속도가 빠름
- 효율성 개선에 흥미를 느낌
DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함
- 고정된 GPU 메모리 예산으로 더 긴 컨텍스트 길이를 제공함
LLM이 메모리 대역폭에 의해 제한되는지 궁금함
LLM을 사용하여 이미지를 더 압축하는 방법을 발견함
- 관련 백서를 발표할 예정임
ZipNN과 다른지 궁금함
- 기반이 되는지, 다른지, 더 나은지 이해하기 어려움
이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함

답변달기