Hacker News 의견
  • bfloat16의 높은 동적 범위는 대부분 사용되지 않음

    • 사람들은 0.01 같은 하이퍼파라미터를 선호함
    • 네트워크의 모든 요소를 10^6으로 곱해도 큰 차이가 없음
    • bfloat16 값의 전형적인 엔트로피는 10-12 비트임
    • 부호와 가수 비트는 압축할 수 없는 노이즈임
    • Martin Burtscher의 연구실, LLNL의 fpzip, Facebook의 dietgpu 등에서 손실 없는 압축 기술이 사용됨
    • rANS는 SIMD 명령어 집합에서 Huffman 코딩보다 효율적임
  • 405B-파라미터 모델을 단일 노드에서 실행할 수 있는 가능성

    • 연구소와 스타트업에 큰 기회 제공
  • ML/트랜스포머 모델의 빠른 발전에 감사함

    • llama.cpp가 cublas를 잘 활용하는지 궁금함
  • 무게 형식 전쟁이 끝나면 하드웨어가 이를 지원할 수 있을 것임

    • 최적의 무게 형식에 맞춘 매트릭스 곱셈 하드웨어 필요
  • 실제 에이전트 사용 사례에서 품질, 비용, 성능의 균형을 맞추기 어려움

    • dfloat11이 비용 절감에 도움을 줄 수 있음
  • xmad.ai에서 일함

  • 기술 발전 속도가 빠름

    • 효율성 개선에 흥미를 느낌
  • DFloat11은 미압축 모델을 CPU로 오프로드하는 것보다 1.9-38.8배 높은 처리량을 제공함

    • 고정된 GPU 메모리 예산으로 더 긴 컨텍스트 길이를 제공함
  • LLM이 메모리 대역폭에 의해 제한되는지 궁금함

  • LLM을 사용하여 이미지를 더 압축하는 방법을 발견함

    • 관련 백서를 발표할 예정임
  • ZipNN과 다른지 궁금함

    • 기반이 되는지, 다른지, 더 나은지 이해하기 어려움
  • 이진 대신 삼진을 사용하면 더 높은 압축률을 얻을 수 있다고 생각함