로컬 코딩 모델 가이드

▲

GN⁺ 5달전 | parent | ★ favorite | on: 로컬 코딩 모델 가이드(aiforswes.com)

Hacker News 의견들

나는 이 글을 취미 개발자 관점에서 봤음. 프로덕션 환경이 아니라 개인 프로젝트를 하는 사람들 말임
요즘 $100~$200짜리 코딩 툴 구독을 개인 용도로 결제하는 사람들이 많은데, 사실 대부분은 그럴 필요가 없음
OpenAI나 Anthropic의 $20/월 플랜만으로도 꽤 멀리 갈 수 있음. 특히 OpenAI는 Codex 요금이 훨씬 저렴해서 가성비가 좋음
$100 이상을 쓸 시점은 $20 플랜의 한도를 다 써서 답답할 때쯤임. 그때는 스스로 판단해서 업그레이드하면 됨
- 나는 로컬 모델과 OpenRouter의 무료 모델을 사용함. 한 달 AI 모델 비용이 $1도 안 됨
  인색해서가 아니라, 추론 비용 하락이 결국 모든 걸 이렇게 만들 거라 생각함
  예전엔 수동으로 하던 문서 검색을 $ what-man "질문" 같은 명령으로 자동화했음. 로컬에 manpage 임베딩 DB를 만들어서 LLM이 문서를 찾아 요약해줌
  모델에게 ‘생각’을 시키는 게 아니라 텍스트 처리만 맡기기 때문에 매우 안정적임
  문서 작성자들이 중요한 플래그를 깊숙이 숨겨두는 경향이 있는데, 이 방식이 그 문제를 해결해줌
- $20/월 플랜은 큰 코드베이스를 탐색할 때면 10~20분 만에 한도를 다 씀
  하지만 나는 주로 코드 검색이나 리팩터링 정도만 시켜서 충분함
  반면 LLM에게 코드를 직접 작성하게 하면 토큰이 순식간에 타버림. “vibecoding”식 개발을 해보면 토큰 낭비가 심각함
  단순한 React 앱 수준은 괜찮지만, 훈련 데이터에 없는 영역으로 가면 모델이 계속 헤매는 걸 볼 수 있음
- 나도 개인 프로젝트에 이런 툴을 쓰고 있음. Claude Code 한도는 한 시간 만에 다 써버리지만, 그만큼 가치가 있음
  OpenAI에는 돈을 주고 싶지 않음
- 나도 Claude Max를 개인 코딩용으로 쓰고 있음. $20 플랜은 금방 한도를 다 써서 업그레이드했음
  아직 프로젝트가 수익을 내진 않지만, 학습 투자라고 생각함
- OpenAI Codex는 내 환경에서 토큰만 낭비함. Node 버전 전환 같은 단순 작업도 루프에 빠짐
  반면 Claude는 매우 생산적임
  그리고 대부분의 사람은 필요할 때만 업그레이드할 만큼 똑똑하다고 생각함. 굳이 비싼 플랜부터 시작하지 않음
  게다가 이 글의 주제는 로컬 모델인데, 구독 플랜 조언은 좀 엇나간 이야기 같음
$5,000짜리 노트북이 향후 5년간 SOTA 모델과 경쟁할 거라 생각한 계산이 궁금했음
실제로는 이틀 만에 그 환상이 깨졌다고 봄. 나도 반짝이는 하드웨어에 눈이 멀어 비슷한 짓을 해본 적 있음
로컬 모델은 결국 취미나 프라이버시 집착용임. 진짜 프라이버시가 필요하면 서버 임대가 낫다고 생각함
- 그래도 직접 해보려는 사람은 존중함. 80~90년대 해커 문화가 떠오름
- 내 2023년형 MacBook Pro(M2 Max)로도 1.5년 전 SOTA급 모델을 로컬에서 돌릴 수 있음
  완벽한 비교는 아니지만, 로컬 모델 발전 속도를 보면 꽤 의미 있는 수준임
- 하드웨어는 그대로지만 모델은 점점 효율적이 되니, 5년간 온라인 모델 구독비를 내는 것과 노트북을 사는 건 비슷하다고 생각함
  어차피 노트북은 필요하니, 로컬 모델용으로 충분한 사양을 사는 게 낫다고 봄
- 정말 그런가? 최근 Epoch.ai의 분석에 따르면, 소비자용 GPU가 1년 내 Frontier AI 성능에 접근한다고 함. 오픈웨이트 모델을 과소평가하면 안 된다고 생각함
- 나도 동의함. 코딩용으로 SOTA보다 한 단계 느린 모델도 참기 힘듦
이 글은 저자가 스스로 잘못된 가정을 인정한 점이 흥미로웠음
하지만 “5년간 Mac을 쓴다”는 전제는 비현실적임. 모델 발전 속도가 너무 빠름
기업 환경이라면 Mac Studio 512GB RAM 같은 고사양 장비가 필요할 수도 있음
관련 논의는 이전 스레드에서도 있었음
글에서 MLX와 Ollama만 언급하고 LM Studio는 빠져 있어서 아쉬웠음
LM Studio는 MLX와 GGUF 모델을 모두 지원하고, Ollama보다 기능이 풍부한 macOS GUI를 제공함
모델 카탈로그도 공식 페이지에 활발히 유지되고 있음
- LM Studio는 Ollama보다 훨씬 낫다고 생각함. 인기가 없는 게 이상할 정도임
- 약간 스폰서 글 느낌이 남
- LM Studio는 오픈소스가 아님을 언급해야 함. 로컬 모델을 쓰는 이유가 신뢰인데, 닫힌 앱이면 의미가 줄어듦
- ramalama.ai도 함께 언급할 가치가 있음
- LM Studio는 내부적으로 llama.cpp를 사용함
글에서 “80B 모델을 128GB RAM에서 돌린다”고 하면서, 8GB RAM이면 4B 모델을 써보라 제안한 건 좀 이상했음
품질 저하에 대한 논의가 전혀 없음
- 마치 “4에이커 농장에서 자급자족하는 법” 글이 화분 하나로 대체 가능하다고 말하는 수준임. 황당함
나는 $20/월 Cursor 플랜으로 2억6천만 토큰을 돌렸음. 첫 유료 구독이었는데, 이 글의 접근법이 이해가 안 됨
솔직히 뭔가 빠진 게 있는 것 같고, 아직 의문이 많음
Mac 감가상각이 월 구독료보다 더 크기 때문에, 비용 절감 논리는 약하다고 생각함
로컬 모델을 쓰는 다른 이유는 있을 수 있지만, 비용 효율성은 낮음
게다가 하드웨어가 금방 한계에 부딪힐 위험도 큼. 결국 온라인 툴에서도 작은 모델을 쓰면 같은 논리가 적용됨
최신 모델(Opus 4.5, GPT 5.2)도 이제야 내가 던지는 문제를 간신히 따라옴
로컬 모델이 개발자 시간을 낭비하지 않을 수준이 되려면 아직 1~2년은 걸릴 것 같음
- 모델은 기존 데이터에 훈련되어 있어서, 데이터에서 멀어질수록 성능이 급락함
  그럴 땐 프롬프트를 더 구체적으로 써야 하는데, 그게 오히려 속도를 늦춤
맥북 프로 풀옵션은 컴퓨팅 파워 대비 너무 비쌈. Apple은 특히 RAM 가격을 과하게 책정함
같은 사양의 리눅스 데스크탑을 절반 가격에 만들 수 있음
휴대성이 중요하다면 비애플 노트북도 더 저렴한 대안임
- 하지만 통합 메모리(unified RAM) 가 필요하다면 선택지가 제한됨
  Linux에서는 NVidia Spark나 AMD Ryzen AI 시리즈가 있지만, 128GB RAM 모델은 드묾
  업그레이드도 어렵고 가격도 높음
- x86 시스템 중에 512GB 통합 메모리를 지원하는 게 있나?
  사실 그게 Mac의 주요 장점임. 이제는 Exo로 512GB 이상도 가능함
나는 개발용 PC에서 로컬 모델을 돌리지 않음. 별도 머신에서 돌리는 게 낫다고 생각함
팬 소음도 줄고, 작업 PC 성능에도 영향이 없음
LLM은 수백 ms 지연 정도는 문제되지 않음. 여행 중 오프라인 작업이 아니라면 굳이 그럴 이유가 없음
- 요즘은 Mac Studio나 Nvidia DGX 같은 장비가 조용하고 접근성도 좋아서 이런 걱정이 줄었음