DS4에 대한 몇 마디

(antirez.com)

1P by GN⁺ 4시간전 | ★ favorite | 댓글 1개

DwarfStar 4는 예상보다 빠르게 확산됐고, 단일 모델 중심의 로컬 AI 경험에 대한 수요를 드러냄
빠른 확산에는 DeepSeek v4 Flash와 2/8비트 비대칭 양자화가 작용해 96GB 또는 128GB RAM 실행이 가능해짐
DS4는 특정 모델에 묶인 프로젝트가 아니라, GPU in a box 장비에서 빠른 최신 오픈 가중치 모델을 중심에 두려 함
로컬 추론에서는 질문에 따라 ds4-coding, ds4-legal, ds4-medical 같은 전문 모델을 불러 쓰는 방식이 의미 있어 보임
향후 초점은 품질 벤치마크, 코딩 에이전트, 자택 하드웨어 기반 CI, 포팅 확대, 직렬·병렬 분산 추론임

DS4의 빠른 확산과 배경

DwarfStar 4는 예상보다 빠르게 인기를 얻었고, 단일 모델 통합에 초점을 둔 로컬 AI 경험의 수요를 보여줌
빠른 확산에는 DeepSeek v4 Flash 같은 준 프런티어 모델의 등장, 로컬 추론 판도를 바꿀 만큼 큰 성능과 속도, 2/8비트의 강한 비대칭 양자화 조합이 함께 작용함
이 조합으로 96GB 또는 128GB RAM만으로도 모델 실행이 가능해짐
최근 몇 년간 축적된 로컬 AI 운동의 경험이 DS4 개발 속도에 영향을 줬고, GPT 5.5의 도움이 없었다면 1주일 만에 만들기 어려웠을 것으로 보임
첫 일주일은 재미있지만 피곤했고, 하루 평균 14시간씩 작업했으며 Redis 초기 몇 달과 비슷한 강도였음

앞으로의 방향

DS4는 DeepSeek v4 Flash로 시작하고 끝나는 프로젝트가 아니며, 시간이 지나면 중심 모델이 바뀔 수 있음
목표는 고성능 Mac이나 DGX Spark 같은 “GPU in a box” 장비에서 실제로 빠르게 동작하는 최신 오픈 가중치 모델을 DS4의 중심에 두는 것임
다음 후보는 새 체크포인트로 공개될 DeepSeek v4 Flash이며, 코딩용 버전이나 법률·의료 같은 전문가 변형 모델도 가능함
로컬 추론에서는 질문에 따라 ds4-coding, ds4-legal, ds4-medical 같은 모델을 불러 쓰는 방식이 의미 있어 보임
Claude나 GPT에 묻던 진지한 작업을 로컬 모델에 맡기게 된 것은 이번이 처음이라고 볼 수 있음
벡터 스티어링(vector steering) 으로 LLM을 더 자유롭게 쓰는 경험도 가능해졌고, DS4는 작은 로컬 모델보다 온라인 프런티어 모델에 훨씬 가까운 경험을 줌
초기의 혼란스러운 며칠 이후 프로젝트는 품질 벤치마크, 코딩 에이전트, 자택 하드웨어 기반 CI 테스트, 더 많은 포팅, 분산 추론에 집중할 예정임
분산 추론은 직렬(serial) 과 병렬(parallel) 방식을 모두 포함하며, 중요한 향후 과제로 남아 있음
AI는 단순한 제공 서비스로만 남기기에는 너무 중요함

▲

GN⁺ 4시간전 [-]

Hacker News 의견들

DwarfStar4는 DeepSeek 4를 실행할 수 있는 작은 LLM 추론 런타임이고, 블로그 글상으로는 현재 96GB VRAM이 필요한 것으로 보임
맥락이 부족한 사람들을 위한 설명임 :-)
- 그건 전체 모델이 아니라 Flash 버전이고, 양자화도 대략 Q2~Q3 수준이라 인상적이긴 해도 전체 모델과는 꽤 다름
- 96GB VRAM이 필요하다는 부분이 있는데, RAM이 더 적은 Mac에서 돌리면 어떻게 되는지 테스트한 사람이 있는지 궁금함
  동작은 하되 모델 계층을 저장소에서 가져오면서 조금 느려질 수도 있어 보임
- DwarfStar4가 llama.cpp와 어떻게 다른지 궁금함
코딩에 필요한 지능이 어느 지점에서 “충분함”에 도달할지 매우 궁금함
어느 순간부터는 덜 똑똑한 모델을 더 오래 문제에 매달리게 해서 같은 결과에 도달할 수 있고, 내가 개입하지 않는다면 결과적으로 같은 셈임
DeepSeek V4 Pro는 거의 그 지점에 온 느낌이고, Flash도 그럴지 모름
그 지점에 도달하면 Anthropic의 현재 사업 모델 중 얼마나 무너질지도 궁금함
지금까지는 가장 똑똑한 모델에 돈을 내는 게 당연히 가치 있었지만, 이제 그 개념의 성장 여지는 제한적이라는 게 분명해 보임
남은 활주로가 얼마나 긴지가 문제이고, Anthropic이 기업·생산성 쪽으로 급하게 넓히는 것도 이미 이 흐름을 보고 있기 때문인지 궁금함
- 더 똑똑한 모델은 작은 모델이 못 하는 일을 그냥 해내는 경우가 있음
  단순히 더 오래 기다리면 되는 문제가 아닌 듯함
- 결국 항상 비용의 문제로 갈 것임
  개발자 시간, 개발자 비용, AI 비용, 개발자 생산성 사이의 균형임
  4.6을 보면 일반 기업 기준으로는 비용 감내 한계에 가까워 보이니, 다른 변수들이 바뀌어야 할 듯함
- 오픈소스 코딩 에이전트 Kilo가 Deepseek v4 Pro와 Flash를 Opus 4.7, Kimi K2와 비교 테스트했음[1]
  결과는 괜찮았지만 Opus보다 점수가 꽤 낮았고, Deepseek의 현재 출시 프로모션 가격을 적용해도 비용이 거의 비슷했음
  이 비용 구조가 흥미로운데, Sonnet과 Opus에서도 비슷한 걸 봤고 직접 벤치마크할 때도 가격은 좋아 보이지만 토큰을 너무 많이 써서 “더 비싼” 모델과 비용이 같아지는 모델들이 있었음
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- 취미 프로그래머에게는 꽤 빨리 충분히 좋은 수준에 도달하겠지만, 기업은 여전히 더 빠르고 더 똑똑한 모델에 돈을 낼 것 같음
  프로그래머를 왜 기다리게 하겠나
이렇게 좁게 집중한 도구를 발견해서 좋음
지원 백엔드는 Metal이 주 타깃이고, 96GB RAM MacBook부터 시작함
NVIDIA CUDA는 DGX Spark를 특별히 신경 쓰고, AMD ROCm은 rocm 브랜치에서만 지원됨
antirez가 직접 하드웨어 접근이 없어서 main과 분리되어 있고, 커뮤니티가 필요할 때 리베이스하는 구조임
이 프로젝트는 llama.cpp와 GGML 없이는 존재하지 않았을 것이며, 감사 섹션을 읽어보라는 내용도 있음
다만 아직 시스템 RAM 오프로딩은 지원하지 않는 듯함[0]
그래서 llama.cpp 이슈도 계속 지켜봐야겠음[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- AMD ROCm이 rocm 브랜치에서만 지원된다는데, 실제로 해본 사람이 있는지 궁금함
  이 스레드는 MacBook Pro 이야기가 많지만, 128GB 통합 메모리가 있는 AMD Halo Strix에서 써보고 싶음
- 그만큼 RAM이 들어간 Mac을 아직 살 수만 있다면 좋을 텐데
Mac Studio에서 로컬 네트워크로 Q4 버전을 써봤는데 좋았음
여러 에이전트와 같이 사용하다가 작업을 너무 잘해서 로컬 모델이라는 걸 처음으로 잊어버린 경험도 있었음
다만 또 다른 에이전트가 정말 필요한지는 의문임
Pi로 구동했는데 Claude Code의 시스템 프롬프트는 프리필 속도를 생각하면 너무 무겁고, 결과는 훌륭했음
OpenCode도 좋은 선택지임
Deepseek 4 전용으로 비슷한 도구를 하나 더 만들면 얻을 게 더 있는지 궁금함
- 기능적으로는 또 다른 에이전트가 필요하지 않음
  하지만 DS4 자체의 아이디어를 따라가면, API 에이전트는 DSML 구문을 JSON으로 번역하는 등 이상한 일을 하게 만들고, 그 결과 정규화나 KV 캐시 체크포인팅 문제가 생김
  실제로 그런지와 별개로, 더 정상적인 대안을 제공하는 것도 의미 있음
  이 분야에서 더 많은 걸 C/Go/Rust로 작성해서 제어력, 속도, 의존성 감소를 얻으려 하지 않는 이유도 잘 모르겠음
  TUI 쪽에서도 상상할 수 있는 게 많음
  대부분의 프로젝트는 이미 본 것을 그대로 베끼는 문제가 있는데, 예를 들어 20분 만에 이런 걸 만들었음: https://x.com/antirez/status/2055190821373116619
  이제 코드는 싸졌고, 아이디어의 가치가 더 커졌음
  오늘날에도 “또 다른 XYZ가 필요한가?”라는 식으로 생각하는 게 맞는지 확신이 없음
  새로운 아이디어를 탐색하기 위해서만이라도 가치 있을 수 있음
  개인적으로 JavaScript / Node 생태계를 코드에 쓰는 걸 좋아하지 않아서, 새 TUI나 에이전트 워크플로를 탐색할 때 더 편한 도구로 하면 결과와 반복 과정이 달라짐
- DS4는 추론 엔진이지 실행 하네스가 아님
  추론 API 서버를 제공하고, 코딩 하네스를 거기에 연결하는 방식임
지금은 하드웨어가 안 돼서 못 쓰지만 마음에 듦. M2 Max에 96GB뿐임
일반 사용자나 대중 컴퓨터에서는 못 쓰거나 더 나쁘게 보일 것도 이해함
예전 가정용 컴퓨터가 개인용 컴퓨터가 되기 전에는 장난감 취급받던 게 떠오름
현재 내 하드웨어에서 그나마 쓸 만한 조합은 pi agent + llama.cpp + nemotron cascade-2 모델임
1M 문맥까지 가능하고, 하이브리드 아키텍처라 코드 에이전트가 쓰는 10K·50K·100K 문맥 깊이에서 1/N²처럼 무너지지 않음
며칠 전 비행기에서 인터넷 없이도 pi agent를 llama.cpp 서빙으로 돌릴 수 있었고, 40~30토큰/초 정도로 간신히 쓸 만해서 웃음이 났음
보통 API 속도는 그 두 배인 60~80토큰/초 정도로 알고 있음
추론 중 센서는 60W 사용을 보여줬고, 배터리는 아마 3시간 이상 버티기 어려울 듯함
모델 크기가 30B뿐이라 KV 캐시와 다른 프로그램 공간이 넉넉하고, 넉넉한 8비트 양자화에서도 괜찮음
한 번에 활성화되는 파라미터가 3B뿐인 MoE A3B가 노후한 M2 Max가 감당할 수 있는 최대치처럼 보임
- macOS에서 다르게 동작하는지는 모르겠지만, CUDA와 DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf 조합으로는 문맥까지 포함해 96GB VRAM 안에 들어감
  그래서 macOS가 기본적으로 OS나 디스플레이에 몇 GB RAM/VRAM을 쓰는 게 아니라면 이론상 가능해야 할 것 같음
- 그 컴퓨터에서도 동작할 것 같음
  긍정적인 보고가 몇 개 있음
- 96GB면 특히 제한된 문맥에서는 동작해야 함
  다만 M2 Max는 좀 느리긴 함
Claude와 아주 가깝게 느껴져서 놀라움
당연히 훨씬 느리지만, 훨씬 멍청한지는 잘 모르겠음
흥미롭게도 imatrix 양자화가 OpenRouter의 zdr 추론 백엔드가 쓰는 어떤 양자화보다 나아 보임
어제는 자기 서버 프로세스가 자기 자신이라는 걸 내가 말해주지 않아도 알아차렸는데, 로컬 모델에서 그런 건 처음 봄
- 어떤 프롬프트를 줬는지 궁금함
- 명백히 일화적 테스트이긴 하지만, DeepseekV4 Pro가 코딩에서는 Sonnet보다 나았음
  훨씬 느리지만 지금 프로모션 기준으로는 특히 여러 배 저렴함
모델별 추론 엔진을 새로 만드는 이유가 설명되어 있지 않은 것 같음
그냥 llama.cpp를 쓰면 되는데, 이미 많은 사람이 llama.cpp 통합 작업을 하고 있음
단일 모델에 많은 노력을 쏟는 셈이고, 더 나은 다른 모델이 나오면 금방 구식이 될 가능성이 큼
어떤 논의에서는 사람들이 llama.cpp 브랜치와 ds4 양쪽에 PR을 만들고 있어서, 이 모델에 개발 시간을 투자하는 희소한 인력이 분산되고 있음
- 소유하지 않은 성숙하고 다루기 힘든 C++ 코드베이스보다, 직접 소유한 집중된 C 코드베이스에서 작업하는 게 훨씬 쉬움
  그래도 괜찮음. 사람들이 그 작업을 llama.cpp로 포팅할 것이고 모두가 이득을 봄
  ds4의 사용자 경험도 훌륭함. 검증된 모델과 좋은 양자화를 얻기가 매우 쉬움
  llama.cpp는 노브가 너무 많아서 훨씬 더 황무지에서 해킹하는 느낌임
- 전제는 “코드는 싸고, 협업, 예컨대 업스트림 반영은 비싸다”인 듯함
  그게 사실인지는 몇 년 뒤에 보게 될 것임
- 작성자가 여러 번 말했듯, llama.cpp 유지보수자들은 사람이 검토하지 않은 AI 작성 코드가 널리 들어오는 걸 원하지 않음
  누군가 그 프로젝트에 지원을 업스트림하려면 자유롭게 하면 되고, 코드는 MIT 라이선스임
- 어느 지점부터는 llama.cpp나 Linux 같은 크고 유연한 프로젝트에 필요한 추상화·일반화 수준이 파일 수를 엄청나게 늘려버림
  더 새롭고 작은 프로젝트가 더 빠르게 움직일 수 있음
DeepSeekV4 Pro는 정말 유능한 모델이고, 특히 제공되는 가격대 때문에 매우 좋음
C에서 raylib 위에 2.5D 엔진을 만지작거리면서 DeepSeek을 보조자로 쓰고 있음
OpenaCode에서 사고 과정 기록이 투명하게 보이는데, 그 사고 과정을 보는 게 놀라울 정도임
읽기는 매우 길지만 쓸모없거나 의미 없는 부분은 없었음
항상 내가 생각하지 못했거나 틀렸던 가정을 DeepSeek이 사고 과정에서 표시하고, 최종 출력에서는 내 flawed request에 맞춰 정렬하곤 했음
그러면 “잠깐, 너도 그렇게 생각했지, 그게 맞고 내가 실수했으니 그 측면도 고려하자”라고 다시 지시하게 됨
이런 걸 내 컴퓨터뿐 아니라 클라이언트 프로젝트나 클라우드 GPU에서 돌릴 수 있으면 좋겠음
강력한 모델을 효율적으로, 클러스터 없이 쓸 수 있다는 핵심 아이디어는 많은 비즈니스 사례에도 여전히 적용됨
이런 방식이 배치 모드에서도 동작하길 기대함
지금은 H200에서 스마트 음성 에이전트의 에이전트형 도구 호출에는 MTP가 있는 4비트 Qwen 3.6 27B가 최고 중 하나처럼 느껴짐
DS4 Flash가 2비트 80B, 활성 13B, MTP 구조라면 더 빠르고 똑똑하면서 동시 시퀀스도 더 많이 허용할 수 있을지 궁금함
이 특별한 2비트 양자화는 꽤 큰 의미가 있어 보임
로컬 모델에서 “지능”이라고 부르든 뭐라고 부르든 성능과 속도가 빠르게 올라가는 걸 보면, 이 영역의 성장률과 천장이 어디일지 궁금함
몇 년 안에 이런 수준의 지능과 성능이 예를 들어 16GB RAM에서도 가능해질까?
여기서 새로운 종류의 무어의 법칙을 정의할 수 있을까?
- 이런 모델을 ‘큰 모델 냄새’까지 포함해 16GB에 욱여넣는 건 솔직히 오늘날에는 가능하지 않거나 현실적으로 가능하지 않음
  아키텍처 혁신, 하드웨어 혁신, 또는 어떤 양자화 기법 혁신이 필요함
  문제는 활성화되지 않는 파라미터까지 모두 메모리에 있어야 한다는 점임
  전문가 혼합 모델에서도 RAM 안팎으로 파라미터를 바꾸는 건 너무 느림
- 이 분야 최전선에서 일하는 사람들은 서로 다른 문제를 푸는 병렬 모델이 필요하다고 보는 듯함
  까마귀는 인간에 비해 매우 작은 뇌로도 어느 정도 지능을 보이고, 가장 멍청한 인간과 가장 똑똑한 까마귀의 문제 해결 능력에는 겹치는 부분이 있음
  그래서 그게 무엇인지가 질문임
  Yann LeCun은 우리가 지금 세계 모델이라고 부르는 것이라고 보는 듯함
  세계 모델은 언어 같은 구조화된 데이터를 예측하는 것이 아니라 행동을 예측함
  어떤 세계가 어떻게 작동하는지 예측할 수 있다면, 이론적으로는 원인과 결과를 추론할 수 있음
  원인·결과 추론을 언어와 결합할 수 있다면 진짜 지능에 가까운 것이 나올 수도 있음
  방향은 그쪽으로 가는 듯함
  그런 시스템의 프로토타입이 나오면 실제로 데이터가 얼마나 필요한지에 대한 질문이 많이 생길 것임
  1비트 양자화로 LLM을 줄여도 언어 이해가 꽤 강한 모델이 나오는 걸 이미 봤음
  앞으로 몇 년 안에 비교적 낮은 메모리로도 매우 지능적인 AI 시스템을 보게 되는 것이 비합리적이라고 생각하지 않음

답변달기

DS4에 대한 몇 마디

DS4의 빠른 확산과 배경

앞으로의 방향

함께 보면 좋은 글 β

Hacker News 의견들