동적 길이 부동소수를 통한 효율적인 GPU 추론을 위한

▲

GN⁺ 12달전 | parent | ★ favorite | on: 동적 길이 부동소수를 통한 효율적인 GPU 추론을 위한 무손실 LLM 압축(arxiv.org)

Hacker News 의견

bfloat16의 높은 동적 범위는 대부분 사용되지 않음
- 사람들은 0.01 같은 하이퍼파라미터를 선호함
- 네트워크의 모든 요소를 10^6으로 곱해도 큰 차이가 없음
- bfloat16 값의 전형적인 엔트로피는 10-12 비트임
- 부호와 가수 비트는 압축할 수 없는 노이즈임
- Martin Burtscher의 연구실, LLNL의 fpzip, Facebook의 dietgpu 등에서 손실 없는 압축 기술이 사용됨
- rANS는 SIMD 명령어 집합에서 Huffman 코딩보다 효율적임
405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성
- 연구소와 스타트업에 큰 기회 제공
ML/트랜스포머 모델의 빠른 발전에 감사함
- llama.cpp가 cublas를 잘 활용하는지 궁금함
무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임
- 최적의 무게 형식에 맞춘 매트릭스 곱셈 하드웨어 필요
실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움
- dfloat11이 비용 절감에 도움을 줄 수 있음
xmad.ai에서 일함
기술 발전 속도가 빠름
- 효율성 개선에 흥미를 느낌
DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함
- 고정된 GPU 메모리 예산으로 더 긴 컨텍스트 길이를 제공함
LLM이 메모리 대역폭에 의해 제한되는지 궁금함
LLM을 사용하여 이미지를 더 압축하는 방법을 발견함
- 관련 백서를 발표할 예정임
ZipNN과 다른지 궁금함
- 기반이 되는지, 다른지, 더 나은지 이해하기 어려움
이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함