2P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • DFloat11은 대형 언어 모델(LLM)의 크기를 30% 줄이면서도 원본 모델과 비트 단위로 동일한 출력을 유지하는 손실 없는 압축 프레임워크
  • BFloat16 가중치 표현의 낮은 엔트로피를 활용하여 기존 저장 형식의 비효율성을 개선함
  • GPU에서 효율적인 추론을 위해 맞춤형 GPU 커널을 개발하여 빠른 온라인 압축 해제를 지원함
  • Llama-3.1, Qwen-2.5, Gemma-3 등의 최신 모델에서 실험을 통해 30% 모델 크기 감소정확한 출력 유지를 검증함
  • 고정된 GPU 메모리 예산으로 비압축 모델보다 5.3-13.17배 긴 컨텍스트 길이를 가능하게 함

70% 크기, 100% 정확도: 효율적인 GPU 추론을 위한 손실 없는 LLM 압축

  • 대형 언어 모델(LLM)의 크기가 급격히 증가하여 자원 제한 하드웨어에서의 효율적인 배포에 큰 도전이 됨
  • **Dynamic-Length Float (DFloat11)**은 LLM의 크기를 30% 줄이면서도 비트 단위로 동일한 출력을 유지하는 손실 없는 압축 프레임워크임
  • BFloat16 가중치 표현의 낮은 엔트로피를 활용하여 기존 저장 형식의 비효율성을 개선함
  • 엔트로피 코딩을 적용하여 빈도에 따라 가중치에 동적 길이 인코딩을 할당하여 정보 최적의 압축을 달성함
  • 효율적인 추론을 위해 맞춤형 GPU 커널을 개발하여 빠른 온라인 압축 해제를 지원함

DFloat11의 설계

  • 메모리 집약적인 조회 테이블(LUT)을 GPU SRAM에 맞는 압축된 LUT로 분해함
  • 경량 보조 변수를 사용하여 스레드 읽기/쓰기 위치를 조정하는 2단계 커널을 개발함
  • 변환기 블록 수준의 압축 해제를 통해 지연 시간을 최소화함

실험 결과

  • Llama-3.1, Qwen-2.5, Gemma-3 등의 최신 모델에서 DFloat11이 30% 모델 크기 감소정확한 출력 유지를 검증함
  • 비압축 모델의 일부를 CPU로 오프로드하는 대안과 비교하여 1.9-38.8배 높은 처리량을 달성함
  • 고정된 GPU 메모리 예산으로 비압축 모델보다 5.3-13.17배 긴 컨텍스트 길이를 가능하게 함

DFloat11의 장점

  • Llama-3.1-405B, 810GB 모델을 8x80GB GPU가 장착된 단일 노드에서 손실 없는 추론을 가능하게 함
  • 코드와 모델은 공개 URL에서 제공됨
Hacker News 의견
  • bfloat16의 높은 동적 범위는 대부분 사용되지 않음

    • 사람들은 0.01 같은 하이퍼파라미터를 선호함
    • 네트워크의 모든 요소를 10^6으로 곱해도 큰 차이가 없음
    • bfloat16 값의 전형적인 엔트로피는 10-12 비트임
    • 부호와 가수 비트는 압축할 수 없는 노이즈임
    • Martin Burtscher의 연구실, LLNL의 fpzip, Facebook의 dietgpu 등에서 손실 없는 압축 기술이 사용됨
    • rANS는 SIMD 명령어 집합에서 Huffman 코딩보다 효율적임
  • 405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성

    • 연구소와 스타트업에 큰 기회 제공
  • ML/트랜스포머 모델의 빠른 발전에 감사함

    • llama.cpp가 cublas를 잘 활용하는지 궁금함
  • 무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임

    • 최적의 무게 형식에 맞춘 매트릭스 곱셈 하드웨어 필요
  • 실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움

    • dfloat11이 비용 절감에 도움을 줄 수 있음
  • xmad.ai에서 일함

  • 기술 발전 속도가 빠름

    • 효율성 개선에 흥미를 느낌
  • DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함

    • 고정된 GPU 메모리 예산으로 더 긴 컨텍스트 길이를 제공함
  • LLM이 메모리 대역폭에 의해 제한되는지 궁금함

  • LLM을 사용하여 이미지를 더 압축하는 방법을 발견함

    • 관련 백서를 발표할 예정임
  • ZipNN과 다른지 궁금함

    • 기반이 되는지, 다른지, 더 나은지 이해하기 어려움
  • 이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함