# 동적 길이 부동소수를 통한 효율적인 GPU 추론을 위한 무손실 LLM 압축

> Clean Markdown view of GeekNews topic #20542. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20542](https://news.hada.io/topic?id=20542)
- GeekNews Markdown: [https://news.hada.io/topic/20542.md](https://news.hada.io/topic/20542.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-26T15:33:39+09:00
- Updated: 2025-04-26T15:33:39+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2504.11651)
- Points: 2
- Comments: 1

## Topic Body

- **DFloat11**은 대형 언어 모델(LLM)의 크기를 30% 줄이면서도 원본 모델과 비트 단위로 동일한 출력을 유지하는 **손실 없는 압축 프레임워크**임
- **BFloat16 가중치 표현의 낮은 엔트로피**를 활용하여 기존 저장 형식의 비효율성을 개선함
- **GPU에서 효율적인 추론**을 위해 **맞춤형 GPU 커널**을 개발하여 빠른 온라인 압축 해제를 지원함
- **Llama-3.1, Qwen-2.5, Gemma-3** 등의 최신 모델에서 실험을 통해 **30% 모델 크기 감소**와 **정확한 출력 유지**를 검증함
- **고정된 GPU 메모리 예산**으로 비압축 모델보다 **5.3-13.17배 긴 컨텍스트 길이**를 가능하게 함

---

### 70% 크기, 100% 정확도: 효율적인 GPU 추론을 위한 손실 없는 LLM 압축

- 대형 언어 모델(LLM)의 크기가 급격히 증가하여 자원 제한 하드웨어에서의 효율적인 배포에 큰 도전이 됨
- **Dynamic-Length Float (DFloat11)**은 LLM의 크기를 30% 줄이면서도 비트 단위로 동일한 출력을 유지하는 손실 없는 압축 프레임워크임
- BFloat16 가중치 표현의 낮은 엔트로피를 활용하여 기존 저장 형식의 비효율성을 개선함
- 엔트로피 코딩을 적용하여 빈도에 따라 가중치에 동적 길이 인코딩을 할당하여 정보 최적의 압축을 달성함
- 효율적인 추론을 위해 맞춤형 GPU 커널을 개발하여 빠른 온라인 압축 해제를 지원함

### DFloat11의 설계

- 메모리 집약적인 조회 테이블(LUT)을 GPU SRAM에 맞는 **압축된 LUT**로 분해함
- **경량 보조 변수**를 사용하여 스레드 읽기/쓰기 위치를 조정하는 **2단계 커널**을 개발함
- **변환기 블록 수준의 압축 해제**를 통해 지연 시간을 최소화함

### 실험 결과

- Llama-3.1, Qwen-2.5, Gemma-3 등의 최신 모델에서 DFloat11이 **30% 모델 크기 감소**와 **정확한 출력 유지**를 검증함
- 비압축 모델의 일부를 CPU로 오프로드하는 대안과 비교하여 **1.9-38.8배 높은 처리량**을 달성함
- 고정된 GPU 메모리 예산으로 비압축 모델보다 **5.3-13.17배 긴 컨텍스트 길이**를 가능하게 함

### DFloat11의 장점

- Llama-3.1-405B, 810GB 모델을 **8x80GB GPU**가 장착된 단일 노드에서 손실 없는 추론을 가능하게 함
- 코드와 모델은 **공개 URL**에서 제공됨

## Comments



### Comment 37854

- Author: neo
- Created: 2025-04-26T15:33:40+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43796935) 
* bfloat16의 높은 동적 범위는 대부분 사용되지 않음
  - 사람들은 0.01 같은 하이퍼파라미터를 선호함
  - 네트워크의 모든 요소를 10^6으로 곱해도 큰 차이가 없음
  - bfloat16 값의 전형적인 엔트로피는 10-12 비트임
  - 부호와 가수 비트는 압축할 수 없는 노이즈임
  - Martin Burtscher의 연구실, LLNL의 fpzip, Facebook의 dietgpu 등에서 손실 없는 압축 기술이 사용됨
  - rANS는 SIMD 명령어 집합에서 Huffman 코딩보다 효율적임

* 405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성
  - 연구소와 스타트업에 큰 기회 제공

* ML/트랜스포머 모델의 빠른 발전에 감사함
  - llama.cpp가 cublas를 잘 활용하는지 궁금함

* 무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임
  - 최적의 무게 형식에 맞춘 매트릭스 곱셈 하드웨어 필요

* 실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움
  - dfloat11이 비용 절감에 도움을 줄 수 있음

* xmad.ai에서 일함

* 기술 발전 속도가 빠름
  - 효율성 개선에 흥미를 느낌

* DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함
  - 고정된 GPU 메모리 예산으로 더 긴 컨텍스트 길이를 제공함

* LLM이 메모리 대역폭에 의해 제한되는지 궁금함

* LLM을 사용하여 이미지를 더 압축하는 방법을 발견함
  - 관련 백서를 발표할 예정임

* ZipNN과 다른지 궁금함
  - 기반이 되는지, 다른지, 더 나은지 이해하기 어려움

* 이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함
