11P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Microsoft 연구진이 BitNet b1.58 2B4T라는 초효율적인 AI 모델을 개발했음
  • 1비트 양자화를 통해 높은 속도와 낮은 메모리 사용량 달성하여 CPU에서도 실행 가능하며 MIT 라이선스로 공개됨
  • Apple M2 같은 CPU에서도 실행 가능하며 GPU 없이 작동함
  • 2억 개의 파라미터를 가진 BitNet b1.58 2B4T는 Meta, Google, Alibaba 모델보다 성능이 뛰어남
  • 다만, Microsoft의 bitnet.cpp 프레임워크를 사용해야 하며, GPU와의 호환성 문제는 여전히 존재함

Microsoft의 초경량 1비트 AI 모델 BitNet b1.58 2B4T

초경량 모델 BitNet의 개념

  • BitNet1비트 양자화를 적용한 AI 모델로, -1, 0, 1 세 가지 값만을 사용하여 파라미터를 표현함
  • 기존의 양자화 모델은 일반적으로 8비트 또는 4비트로 표현되지만, BitNet은 1비트만 사용해 압도적인 메모리 효율성을 가짐
  • 이 방식은 저사양 하드웨어, 특히 GPU가 없는 CPU 환경에서 큰 이점을 가짐

BitNet b1.58 2B4T의 특징

  • 파라미터 수: 20억 개
  • 학습 데이터: 4조 토큰 (약 3,300만 권의 책 분량)
  • MIT 라이선스로 오픈소스 공개
  • Apple M2 CPU와 같은 범용 CPU에서도 작동 가능

성능 비교와 벤치마크 결과

  • BitNet b1.58 2B4T는 다음 모델들보다 일부 벤치마크에서 우수한 성능을 보임:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • 사용된 주요 벤치마크:
    • GSM8K: 초등학교 수준 수학 문제 평가
    • PIQA: 물리적 상식 추론 능력 평가
  • 일부 테스트에서 최대 2배 빠른 속도, 메모리 사용량은 현저히 적음

제한 사항 및 호환성 문제

  • BitNet의 성능은 Microsoft의 전용 프레임워크인 bitnet.cpp 에 의존함
  • bitnet.cpp는 현재 특정 CPU만 지원, GPU는 미지원
  • 이로 인해 AI 인프라 표준인 GPU 환경과의 호환성 부족이 단점으로 지적됨
Hacker News 의견
  • Microsoft의 BitNet은 FP16 또는 BF16과 같은 정밀도를 가진 Transformer LLM과 동일한 모델 크기와 학습 토큰을 사용하면서도 지연 시간, 메모리, 처리량, 에너지 소비 측면에서 비용 효율적임
    • GitHub 링크와 arXiv 논문을 통해 더 많은 정보를 얻을 수 있음
  • AI 모델의 "파라미터 수"는 AI 모델의 "GHz"와 같음
    • 비교된 모든 모델은 1-2억 개의 파라미터를 가지고 있지만 실제 크기는 10배 이상 차이가 날 수 있음
  • 대부분의 무료 LLM은 CPU에서 실행 가능함
    • 이 모델이 CPU에서 유용하게 빠르게 실행된다는 주장임
    • GPU에서의 실행 속도를 알 수 없어 이 주장에 대한 정확성을 확신할 수 없음
  • BitNet b1.58 2B4T 모델은 동일한 크기의 다른 모델보다 빠르며, 메모리 사용량이 적음
    • 모델 크기는 1GB 이상이며, 현대적인 CPU에서도 잘 작동하는 1-2GB 모델이 많음
  • NVidia는 CUDA를 통해 소프트웨어 수준의 잠금을 서두르고 있음
    • 그렇지 않으면 주식이 Zoom과 같은 길을 갈 수 있음
  • "1-bit"이라고 부르지만 실제로는 {-1, 0, 1}을 사용함
    • 이 부분에 대해 혼란스러울 수 있음
  • 더 큰 모델을 BitNet으로 증류할 수 있는 라이브러리가 있는지 궁금함
  • MIT 라이선스 하에 공개적으로 사용 가능하며, Apple의 M2를 포함한 CPU에서 실행 가능함
    • M2는 이미 7GB 또는 13GB의 LLama 및 Mistral 모델을 쉽게 실행함
  • M 시리즈와 MacBook이 널리 퍼져 있어 평균 CPU(i3 또는 i5)가 얼마나 약한지 잊고 있을 수 있음
  • 가격 전쟁은 계속해서 바닥을 칠 것임
  • 1년 이상 지난 기술로, 모든 사람이 이 기술로 전환하지 않았음
    • 이유를 살펴보면, 이 기술이 실제로 지표에 영향을 미치며, 일부는 다른 것보다 더 큰 영향을 미침
    • 만능 해결책은 아님