▲GN⁺ 12달전 | parent | ★ favorite | on: 동적 길이 부동소수를 통한 효율적인 GPU 추론을 위한 무손실 LLM 압축(arxiv.org)Hacker News 의견 bfloat16의 높은 동적 범위는 대부분 사용되지 않음 사람들은 0.01 같은 하이퍼파라미터를 선호함 네트워크의 모든 요소를 10^6으로 곱해도 큰 차이가 없음 bfloat16 값의 전형적인 엔트로피는 10-12 비트임 부호와 가수 비트는 압축할 수 없는 노이즈임 Martin Burtscher의 연구실, LLNL의 fpzip, Facebook의 dietgpu 등에서 손실 없는 압축 기술이 사용됨 rANS는 SIMD 명령어 집합에서 Huffman 코딩보다 효율적임 405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성 연구소와 스타트업에 큰 기회 제공 ML/트랜스포머 모델의 빠른 발전에 감사함 llama.cpp가 cublas를 잘 활용하는지 궁금함 무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임 최적의 무게 형식에 맞춘 매트릭스 곱셈 하드웨어 필요 실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움 dfloat11이 비용 절감에 도움을 줄 수 있음 xmad.ai에서 일함 기술 발전 속도가 빠름 효율성 개선에 흥미를 느낌 DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함 고정된 GPU 메모리 예산으로 더 긴 컨텍스트 길이를 제공함 LLM이 메모리 대역폭에 의해 제한되는지 궁금함 LLM을 사용하여 이미지를 더 압축하는 방법을 발견함 관련 백서를 발표할 예정임 ZipNN과 다른지 궁금함 기반이 되는지, 다른지, 더 나은지 이해하기 어려움 이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함
Hacker News 의견
bfloat16의 높은 동적 범위는 대부분 사용되지 않음
405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성
ML/트랜스포머 모델의 빠른 발전에 감사함
무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임
실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움
xmad.ai에서 일함
기술 발전 속도가 빠름
DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함
LLM이 메모리 대역폭에 의해 제한되는지 궁금함
LLM을 사용하여 이미지를 더 압축하는 방법을 발견함
ZipNN과 다른지 궁금함
이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함