DeepSeek-R1 Dynamic 1.58-bit 모델 실행하기

(unsloth.ai)

17P by GN⁺ 5달전 | ★ favorite | 댓글 1개

DeepSeek-R1은 OpenAI의 O1 Reasoning 모델과 비교되는 성능을 보이는 오픈소스 모델임
원래 720GB의 모델을 131GB로 축소하여 80% 크기 감소를 달성함
동적 양자화 기법을 사용하여 일부 레이어는 높은 비트(예: 4bit)로 유지하고 대부분의 MoE(Mixture of Experts) 레이어는 1.58bit로 처리

주요 특징

최소 사양: CPU에서 20GB RAM으로 실행 가능하지만 속도는 느림
최적 성능: VRAM과 RAM의 합이 최소 80GB 이상 필요, 권장 VRAM은 160GB(H100 80GB GPU 2대)
동적 양자화 버전(131GB~212GB)은 Hugging Face에서 제공됨: DeepSeek-R1-GGUF

동적 양자화 모델 종류

총 4가지 양자화 버전 제공:
- 131GB, 158GB, 183GB, 212GB (일반 2bit)
중요도 행렬(imatrix)을 사용하여 양자화 최적화
양자화 방식 및 하드웨어 요구 사항은 모델마다 상이함

벤치마크 및 성능 테스트

Flappy Bird 게임 생성(pass@3) 기준으로 10가지 평가 항목 점수를 측정
1.58bit 동적 양자화 모델의 점수는 다음과 같음:
- 131GB 모델: 6.92
- 158GB 모델: 9.08
- 183GB 모델: 9.17
비동적 양자화 모델은 반복 오류나 잘못된 결과를 생성함

DeepSeek-R1의 구조 활용

DeepSeek-R1 구조 분석을 통해 양자화 민감도가 높은 부분을 고해상도로 유지
- 첫 3개 밀집(dense) 레이어는 4~6bit 유지
- MoE 레이어는 대부분 1.58bit로 양자화
- MLA(Memory Layers Attention) 모듈 및 down_proj 부분은 높은 정밀도로 유지
약 88%의 가중치를 1.58bit로 양자화하여 모델 크기 감소를 달성함

채팅 템플릿 및 토큰 처리 문제 해결

모든 버전에서 채팅 템플릿에 <|begin_of_sentence|> 및 <|end_of_sentence|> 토큰 사용
EOS 토큰이 잘못 설정되어 무한 생성 문제가 발생했으나 수정 완료

▲

GN⁺ 5달전 [-]

Hacker News 의견

80% 크기 감소는 놀라운 성과이며, 1.58비트 버전이 듀얼 H100에서 140 토큰/초로 실행되는 것은 인상적임. 그러나 대부분의 사람들에게 실용적인지는 의문임. 24GB VRAM 또는 20GB RAM으로 실행할 수 있지만 속도가 너무 느림. 반복 문제도 있음. Pygame의 반복은 양자화의 의미를 퇴색시킴. 해결책은 있지만 근본적인 문제 해결은 아님. Hugging Face에서 접근 가능하게 만든 점과 동적 양자화 접근 방식은 훌륭함. 작은 팀에게 유리함. 그러나 고가의 하드웨어가 필요함.
DeepSeek를 RTX 4090에서 실행했을 때 모델이 VRAM에 맞아야 하지만 느림. Apple의 공유 메모리 아키텍처가 유리함. 192GB Mx Ultra는 대형 모델을 효율적으로 처리할 수 있음. OpenAI 구독을 취소할 때가 됨.
DeepSeek-R1의 80% 크기 감소는 놀라움. 대형 모델이 더 많은 사람들에게 접근 가능해짐. 1.58비트 양자화로 듀얼 H100에서 140 토큰/초 속도는 인상적임. 소규모 또는 중간 규모의 업체가 로컬 애플리케이션에 사용할 수 있음. 저지연이 필요한 에이전트 작업에 큰 이점임.
VRAM + RAM 합이 최소 80GB 이상이어야 최적 성능을 발휘함. 저전력/저비용 서버에서 시도할 수 있음. Ryzen 5500 + 64GB RAM + 7x RTX 3060 12GB 시스템을 1600 유로에 구축 가능. 전력 소비는 약 520와트임. AM4 보드와 중고 RTX 3060 12GB로 시작함. 추가 GPU는 pcie 라이저/익스텐더로 연결함. 학습과 경험을 쌓기에 좋음.
모든 레이어를 1.58비트로 양자화하면 무한 반복이 발생함. 이 블로그 포스트의 저자들이 특정 시드를 찾는 과정이 흥미로움. 좋은 작업임.
R1에 대한 평가는 아직 명확하지 않음. $5M으로 훈련했다는 주장은 시장에 큰 영향을 미치고 있음. 검증되었는지 궁금함.
100x 기계에 투자했는데 10x로도 가능하다면, 왜 10x 기계를 10개 보유하지 않는지 이해할 수 없음. 하드웨어와 데이터를 재활용하여 더 효율적인 모델을 여러 인스턴스로 만들 수 있음.
Danielhanchen의 작업은 인상적임. Unsloth는 훌륭하며, 새로운 모델에 빠르게 적응하고 기본 구현의 버그를 수정하는 능력이 놀라움. 진지한 연구소는 몇 시간의 선행 시간을 주어야 함.
모델의 크기 감소와 일관성 유지가 놀라움. 그러나 효과가 얼마나 유지되었는지는 의문임. Flappy bird는 잘 알려진 게임이지만, R1과 o1이 다른 모델이 해결하지 못하는 문제를 해결할 수 있는지가 더 나은 테스트임.
차세대 기본 모델이 128GB VRAM에서 8비트 양자화로 추론할 수 있도록 설계되면 좋겠음. 예를 들어, 160억 개의 활성 매개변수와 6~7명의 전문가가 있는 강력한 MoE 기반이 128GB RAM 맥북에서 실행 가능할 것임.

답변달기