1비트 LLM 시대: 비용 효율적인 컴퓨팅을 위한 삼진

▲

xguru 2024-02-29 | parent | ★ favorite | on: 1비트 LLM 시대: 비용 효율적인 컴퓨팅을 위한 삼진 파라미터(arxiv.org)

Hacker News 의견

연구 결과에 대한 충격적인 발견 두 가지:
- 기존 대규모 언어 모델(LLM)의 파라미터 값을 실수 대신 삼진법(-1, 0, 1)으로 대체 가능.
- 행렬 곱셈에서 각 점곱의 원소별 곱셈을 원소별 덧셈으로 대체 가능, 부호는 값에 따라 달라짐.
- 현재 하드웨어에서 이 방법을 사용하면 계산 및 메모리 효율성이 크게 향상되며, 성능 저하 없음.
- 하드웨어에 이 방법을 구현하면 더 큰 효율성 향상을 볼 수 있음.
BitNet b1.58의 성능과 효율성:
- BitNet b1.58은 3B 크기부터 전체 정밀도 기준 모델과 동등한 성능을 보임.
- 모델 성능과 추론 비용에 대한 새로운 스케일링 법칙을 가능하게 함.
- 13B BitNet b1.58은 3B FP16 LLM보다 지연 시간, 메모리 사용량, 에너지 소비 측면에서 더 효율적.
- 30B BitNet b1.58은 7B FP16 LLM보다, 70B BitNet b1.58은 13B FP16 LLM보다 더 효율적.
- 이 논문은 LLM 효율성에 대한 중대한 돌파구를 나타냄, 효율성 향상이 성능 저하 없이 이루어짐.
기존 모델을 새로운 방식으로 전환 가능성에 대한 의문과 NVIDIA 주가에 대한 농담.
AI 응용 분야에서 트랜지스터의 역할 재고 필요성에 대한 고찰:
- AI에서는 엔트로피 감소가 큰 문제가 아니므로, 사용 가능한 전압 범위를 더 활용해야 함.
- 트랜지스터의 역할을 재고하고, NAND 게이트가 근본적인 구성 요소가 아닐 수도 있음을 제안.
부동소수점 표현에 대한 블로그 내용과 연결하여 새로운 표현 방식에 대한 고민:
- 부동소수점 표준에서 +0.0과 -0.0의 구분이 유용함을 설명.
- LLM 논문에서 사용된 {-1, 0, -1} 값과 연결하여 2비트 {-1, -0, 0, 1} 표현이 추가적인 이점을 제공할 수 있는지에 대한 질문.
- 다른 LLM 양자화 논문에서 제안된 2비트 양자화 값에 대한 궁금증.
연구 결과의 실제성에 대한 의심과 Microsoft 연구 및 UCAS의 저자 확인 후 결과의 중요성 인식:
- 결과가 너무 좋아서 실제인지 의심하다가 저자를 확인하고 진짜임을 깨달음.
- 엣지 컴퓨팅 응용 분야뿐만 아니라 클라우드에서 고성능 LLM 제공 비용을 낮출 것으로 예상.
- 장기적 경제적 영향에 대한 고민과 새로운 경쟁자의 등장 가능성에 대한 추측.
'비트'와 '트릿'에 대한 설명과 삼진법 컴퓨팅의 이론적 가능성에 대한 논의:
- '비트'가 아닌 '트릿'이라는 용어 사용, 삼진법 컴퓨팅의 약속에 대한 이론적 설명.
- 삼진법 컴퓨팅에 대한 소비에트 연구와 이론적으로 이상적인 e진법에 대한 언급.
GigaML의 새로운 모델 훈련 계획과 협력 제안:
- GigaML이 llama.cpp와 호환되는 새로운 모델을 훈련할 계획을 발표.
- 작은 모델(3-4B, 1비트, 오픈소스)을 최신 stack-v2 데이터셋으로 훈련할 예정이며 협력자를 찾음.
결과에 대한 회의적인 시각과 재현 필요성에 대한 강조:
- 이러한 개선 사항에 대한 비판적인 시각과 극단적인 양자화 시도에 대한 이전 경험 언급.
LLM 분야의 주요 돌파구와 단일 카드로 120B 모델을 구동할 수 있는 가능성에 대한 감탄:
- FP16 모델과 동일한 성능과 복잡도를 달성하면서 24GB VRAM의 단일 카드로 120B 모델을 구동할 수 있는 잠재력에 대한 감탄.