17P by neo 2달전 | favorite | 댓글 2개

1비트 대형 언어 모델의 시대: 모든 대형 언어 모델은 1.58비트에 있다

  • 최근 연구인 BitNet은 1비트 대형 언어 모델(LLMs)의 새로운 시대를 열고 있음.
  • 이 연구에서는 모든 단일 매개변수(또는 가중치)가 삼진법 {-1, 0, 1}인 1비트 LLM 변형인 BitNet b1.58을 소개함.
  • BitNet b1.58은 동일한 모델 크기와 훈련 토큰을 가진 전체 정밀도(예: FP16 또는 BF16) Transformer LLM과 복잡도 및 최종 작업 성능 측면에서 일치하면서, 지연 시간, 메모리, 처리량 및 에너지 소비 측면에서 훨씬 더 비용 효율적임.
  • 더욱 깊이 있게, 1.58비트 LLM은 고성능이면서 비용 효율적인 새로운 세대의 LLM을 훈련하기 위한 새로운 스케일링 법칙과 레시피를 정의함.
  • 또한, 새로운 계산 패러다임을 가능하게 하고 1비트 LLM에 최적화된 특정 하드웨어를 설계할 수 있는 문을 열어줌.

GN⁺의 의견

  • 1비트 LLM은 기존의 대형 언어 모델보다 훨씬 더 효율적인 연산을 가능하게 하여, 인공지능 연구 및 응용 분야에서의 에너지 소비와 비용을 크게 줄일 수 있는 잠재력을 가지고 있음.
  • 이 기술이 실제로 널리 채택되기 위해서는, 기존의 하드웨어와 소프트웨어 인프라와의 호환성 및 통합 문제가 중요한 고려 사항이 될 것임.
  • 1비트 LLM을 통해 얻을 수 있는 이점은 모델의 크기와 복잡성이 증가함에 따라 더욱 중요해질 것이며, 이는 특히 자원이 제한된 환경에서 AI 기술을 사용하고자 하는 개발자들에게 매력적일 것임.
  • 현재 이 분야에서는 Google의 TPU와 같은 AI 전용 하드웨어가 이미 존재하지만, 1비트 LLM을 위한 특화된 하드웨어 설계는 새로운 시장 기회를 창출할 수 있음.
  • 이 기술의 도입으로 인해 발생할 수 있는 실익은 모델의 정확도와 반응 속도를 유지하면서도 전력 소비와 비용을 줄이는 것이지만, 실제 적용 시에는 기존 모델과의 성능 차이, 호환성 문제, 새로운 하드웨어 요구 사항 등을 고려해야 할 것임.

Hacker News 의견

  • 연구 결과에 대한 충격적인 발견 두 가지:

    • 기존 대규모 언어 모델(LLM)의 파라미터 값을 실수 대신 삼진법(-1, 0, 1)으로 대체 가능.
    • 행렬 곱셈에서 각 점곱의 원소별 곱셈을 원소별 덧셈으로 대체 가능, 부호는 값에 따라 달라짐.
    • 현재 하드웨어에서 이 방법을 사용하면 계산 및 메모리 효율성이 크게 향상되며, 성능 저하 없음.
    • 하드웨어에 이 방법을 구현하면 더 큰 효율성 향상을 볼 수 있음.
  • BitNet b1.58의 성능과 효율성:

    • BitNet b1.58은 3B 크기부터 전체 정밀도 기준 모델과 동등한 성능을 보임.
    • 모델 성능과 추론 비용에 대한 새로운 스케일링 법칙을 가능하게 함.
    • 13B BitNet b1.58은 3B FP16 LLM보다 지연 시간, 메모리 사용량, 에너지 소비 측면에서 더 효율적.
    • 30B BitNet b1.58은 7B FP16 LLM보다, 70B BitNet b1.58은 13B FP16 LLM보다 더 효율적.
    • 이 논문은 LLM 효율성에 대한 중대한 돌파구를 나타냄, 효율성 향상이 성능 저하 없이 이루어짐.
  • 기존 모델을 새로운 방식으로 전환 가능성에 대한 의문과 NVIDIA 주가에 대한 농담.

  • AI 응용 분야에서 트랜지스터의 역할 재고 필요성에 대한 고찰:

    • AI에서는 엔트로피 감소가 큰 문제가 아니므로, 사용 가능한 전압 범위를 더 활용해야 함.
    • 트랜지스터의 역할을 재고하고, NAND 게이트가 근본적인 구성 요소가 아닐 수도 있음을 제안.
  • 부동소수점 표현에 대한 블로그 내용과 연결하여 새로운 표현 방식에 대한 고민:

    • 부동소수점 표준에서 +0.0과 -0.0의 구분이 유용함을 설명.
    • LLM 논문에서 사용된 {-1, 0, -1} 값과 연결하여 2비트 {-1, -0, 0, 1} 표현이 추가적인 이점을 제공할 수 있는지에 대한 질문.
    • 다른 LLM 양자화 논문에서 제안된 2비트 양자화 값에 대한 궁금증.
  • 연구 결과의 실제성에 대한 의심과 Microsoft 연구 및 UCAS의 저자 확인 후 결과의 중요성 인식:

    • 결과가 너무 좋아서 실제인지 의심하다가 저자를 확인하고 진짜임을 깨달음.
    • 엣지 컴퓨팅 응용 분야뿐만 아니라 클라우드에서 고성능 LLM 제공 비용을 낮출 것으로 예상.
    • 장기적 경제적 영향에 대한 고민과 새로운 경쟁자의 등장 가능성에 대한 추측.
  • '비트'와 '트릿'에 대한 설명과 삼진법 컴퓨팅의 이론적 가능성에 대한 논의:

    • '비트'가 아닌 '트릿'이라는 용어 사용, 삼진법 컴퓨팅의 약속에 대한 이론적 설명.
    • 삼진법 컴퓨팅에 대한 소비에트 연구와 이론적으로 이상적인 e진법에 대한 언급.
  • GigaML의 새로운 모델 훈련 계획과 협력 제안:

    • GigaML이 llama.cpp와 호환되는 새로운 모델을 훈련할 계획을 발표.
    • 작은 모델(3-4B, 1비트, 오픈소스)을 최신 stack-v2 데이터셋으로 훈련할 예정이며 협력자를 찾음.
  • 결과에 대한 회의적인 시각과 재현 필요성에 대한 강조:

    • 이러한 개선 사항에 대한 비판적인 시각과 극단적인 양자화 시도에 대한 이전 경험 언급.
  • LLM 분야의 주요 돌파구와 단일 카드로 120B 모델을 구동할 수 있는 가능성에 대한 감탄:

    • FP16 모델과 동일한 성능과 복잡도를 달성하면서 24GB VRAM의 단일 카드로 120B 모델을 구동할 수 있는 잠재력에 대한 감탄.

이거 너무 신기해요. 부동소수점이 아니라 {-1, 0, 1} 만으로도 가능했다니...
과연 어떻게 발전할지 기대가 됩니다.