로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하시나요? 환경을 공유해주세요
(news.ycombinator.com)- Hacker News 사용자들에게 로컬에서 오픈 LLM과 코딩 어시스턴트를 어떤 랩탑 하드웨어에서 어떻게 사용하는지 묻는 Ask HN 스레드
- 어떤 모델(예: Ollama, LM Studio 등)을 사용하고, 어떤 오픈소스 코딩 어시스턴트/통합 솔루션(예: VS Code 플러그인)을 사용하는지
- 어떤 노트북 하드웨어(CPU, GPU/NPU, 메모리, 개별 GPU 또는 통합 GPU, OS)를 사용하며, 워크플로우에서 어떤 성능을 보이는지
- 어떤 작업에 사용하는지(코드 완성, 리팩토링, 디버깅, 코드 검토)? 그리고 안정성은 어느 정도인지(잘 작동하는 부분과 부족한 부분)
-
1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- 장점
- 맥 통합 메모리 덕분에 Qwen3-Coder-30B-A3B, gpt-oss-20b, Gemma 27B까지 그냥 로컬에서 돌아가서 “코드 읽어와 → 요약 → 작은 수정” 워크플로우가 됨
- LM Studio API나 Ollama serve만 켜두면 VS Code Continue.dev, Zed, JetBrains가 바로 붙어서 사실상 Claude Code 비슷한 UX를 맛볼 수 있음
- 맥 특유의 저지연이라 토큰 50~80 tok/s 수준이면 코드 보완·주석 생성은 답답하지 않은 편임
- 비행기/기차/오프라인에서도 되는 게 커서 “회사 코드 안 밖으로 안 나가게” 만드는 용도로 적합함
- 단점
- 20B 넘는 모델부터는 발열 + 팬소음 이슈가 있고, M4 Max 128GB여도 120B는 느리거나 한계가 보임
- “Claude 4.5 Sonnet처럼 bash-in-a-loop로 끝까지 밀어주는” 에이전트 시나리오는 아직 부족함
- 24GB, 32GB급 맥북은 VRAM 할당이 작아서 결국 7B~12B급으로 내려와야 하고, 콘텍스트를 크게 키우면 바로 느려짐
- 장점
-
2) 데스크톱/워크스테이션에 RTX 3090·4090·Pro 6000 달고, 노트북은 얇은 클라이언트로 쓰는 구조
- 장점
- llama.cpp / vLLM / Ollama를 전부 시도할 수 있고, gpt-oss-120B도 “느리지만 실제로” 돌려볼 수 있음
- VS Code에서 Continue나 llama-vscode를 노트북에서 띄우고, 모델은 집에 둔 박스에서 추론하니 노트북 배터리·발열 부담이 거의 없음
- RTX 3090 24GB 기준으로 gpt-oss-20B, Qwen2.5/3 Coder 14~30B는 실사용 토큰 속도가 나와서 자동완성+짧은 리팩토링 정도는 충분함
- 집에 Open WebUI + Ollama 올려두고 VPN/Tailscale로 붙는 패턴이 많아서 원격에서도 프라이빗 환경 유지 가능함
- 단점
- GPU VRAM이 24GB 이하이면 120B는 강하게 양자화해야 해서 품질이 눈에 띄게 떨어짐
- vLLM이 성능은 좋은데 설치·빌드가 귀찮아서 “업데이트된 러너로 다시 돌려보라”는 말이 나올 정도로 관리비가 듦
- 휴대성은 사실상 없으므로 “진짜 노트북 단일기기로 끝내기” 목적이면 이 구조는 맞지 않음
- 장점
-
3) gpt-oss-120B 중심 세팅 (Aider, Codex, 로컬 에이전트)
- 장점
- 여러 명이 “로컬에서 써본 것 중에 이게 제일 GPT-5에 근접했다”는 식으로 말할 만큼 코딩 태스크 정확도가 높게 나왔음
- Aider, Codex, roocode 같은 오픈 코딩 어시스턴트에 붙여서 리뷰 → 수정 → 테스트 → 커밋까지 한 번에 시키는 실험이 실제로 돌아감
- llama.cpp에서 CPU+GPU 혼합 로드로 8GB VRAM에서도 억지로 돌려보는 팁들이 공유돼 있어서 하드웨어 요구치가 생각보다 유연함
- 단점
- 속도가 문제임. 같은 50문항을 ChatGPT가 6분에 끝낼 걸 120B는 1시간 넘게 물어뜯는 식이라, “기다림을 감수하는 사람”용임
- Codex 같은 도구에서는 inference 파라미터를 하드코딩해서 안 멈추게 해야 하고, AGENTS.md를 무겁게 써줘야 사람처럼 일함
- 노트북 단독으론 열·전력·메모리 때문에 장시간 돌리기 어렵고, 사실상 “노트북에서 원격 GPU에 붙는” 형태로 보는 게 맞음
- 장점
-
4) AMD Strix Halo / Ryzen AI / Framework 128GB 같은 대용량 RAM 노트북 + llama.cpp/Continue.dev
- 장점
- 128GB RAM이면 Qwen3 Coder 30B도 실사용 가능하고, 필요한 레이어만 GPU/NPU에 얹고 나머지는 RAM으로 돌리는 하이브리드가 됨
- 사람들 말로는 “회사 밖으로 코드가 못 나가야 한다”거나 “AMD라 클라우드 드라이버가 아직 별로다” 같은 상황에서 현실적인 선택지였음
- lemonade-server처럼 간단한 llama.cpp 서버를 부팅시 자동 실행해두고 편집기는 네트워크로 붙는 구조가 잘 먹힘
- 단점
- 리눅스에서 절전/카메라/드라이버가 아직 매끄럽지 않다는 보고가 있고, 6.18 커널을 봐야 하는 경우도 있었음
- NPU 성능이 NVIDIA급으로 안 나와서 “프롱티어 수준 에이전트”는 꿈도 못 꾸고, 결국 20~30B의 ‘조수’ 용도로 멈춤
- AMD용 자료는 GitHub 리포나 포럼을 타고 찾아야 해서 정보 밀도가 맥·NVIDIA보다 낮음
- 장점
-
5) 16~32GB급 일반 노트북(MacBook Air, M2/M3 Pro 낮은 RAM) + 7B~12B 모델로 FIM 자동완성만 쓰는 세팅
- 장점
- qwen2.5-coder:7b, mistral 7b instruct, gemma3:12b 정도만 써도 “이 줄 이어서 써줘”, “SQL 이 구문 뭐더라” 같은 건 바로바로 나옴
- llama-vscode 플러그인이나 Continue.dev를 붙이면 인터넷 끊겨도 자동완성은 계속돼서 작업 리듬이 안 끊김
- 하드웨어 부담이 적어서 발열과 팬소음이 거의 없고, 배터리도 빨리 안 닳음
- 단점
- 문맥이 조금만 길어져도 바로 헛소리 비율이 늘고, 리팩토링·테스트 코드 생성처럼 “여러 파일을 동시에 이해해야 하는” 건 거의 불가
- 사람들 대체로 “이건 클라우드 모델 대체가 아니라, autocomplete 전용이다”라고 못을 박았음
- 모델을 4비트로 심하게 줄여야 하므로 모델 선택의 폭이 좁음
- 장점
-
6) 완전 오프라인/프라이버시 우선 세팅 (Ollama + Open WebUI + VPN)
- 장점
- 집에 Mac Studio M4 Max 128GB나 데스크톱 하나 두고 Ollama + Open WebUI만 띄워두면, 밖에서는 노트북·폰에서 VPN으로 붙어도 모든 게 로컬임
- 이 구조를 쓴 사람들은 “이제 ChatGPT 거의 안 쓴다”, “버전이 안 바뀌니까 튜닝해둔 프롬프트가 안 망가진다”는 걸 강점으로 꼽음
- 사내에서 “모든 코드가 학습될 수 없다”는 요구가 있을 때 가장 설명이 쉬운 구조임
- 단점
- 모델 업그레이드/교체를 스스로 해야 해서, 클라우드처럼 “알아서 더 똑똑해진다”는 게 없음
- GPU가 약하면 20B 이상은 바로 느려지므로 결국 하드웨어를 늘려야 하고, 그 순간 “이걸 왜 클라우드로 안 했지?” 생각이 듦
- 장점
-
7) 결론적으로 나온 공통 인식
- “노트북 단독”으로는 아직 Claude Code / GPT-5 + 에이전트를 대체하기 어렵고, 로컬은 짧은 코드 생성·도움말·요약·자동완성에 제일 잘 맞음
- 그래서 많이 나온 모양새는 “노트북 ↔ 집에 있는 큰 박스” 거나 “맥 128GB로 20~30B만 빠르게” 였음
- 그럼에도 다들 하는 말은 같았음: 프라이버시 보장 + 지연 거의 없음 + 버전이 안 바뀜 이 세 개가 필요하면 지금도 로컬이 답임
사내 보안 정책 때문에 외부 LLM API는 전혀 사용하고 있지 않고, 사내 클라우드 관리 부서에서 vllm 기반으로 gpt oss 제공해주시는 것으로 사용 중 입니다.
LLM 셀프호스팅 시작은 앞으로 5년 동안은 선투자 비용이 커서 수지타산이 맞지 않는 상태가 지속될 거라 생각합니다. 3~5년 후에 코드 자동완성 한정으로 적당히 빠른 하드웨어가 나와서 가격 메리트가 생겼을 때 다시 고민해볼 예정입니다
검토한 구성들
- 올인원 구성: 업무장비에서 LLM 구동 불가합니다. 개발툴, 브라우저 기반 앱들 돌리기에도 램이 모자랍니다
- LLM 전용 머신 구성: 회사에선 그래픽카드가 없어서 구동 불가합니다. 개인용 PC로도 사양 선투자가 쉽지 않습니다
Hacker News 의견
-
AI를 직접 다뤄보고 싶어서 Dell Precision 3620 Tower i7-7700을 중고로 구입했음
RAM을 업그레이드하고, GPU로 RTX 3060을 달기 위해 전원 공급 장치도 교체했음
Ubuntu Server를 설치하고 집의 k3s 클러스터 노드로 구성했으며, Ollama와 OpenWebUI를 돌리고 있음
주로 Karakeep의 AI 태깅과 요약에 쓰지만, Python 코드로 택배 차량을 감지하는 드라이브웨이 카메라 분석에도 활용 중임 -
GPU 없이 Dell Precision T710(Xeon E6320, 120GB RAM, RAID5 SSD 240TB)에서 Ollama를 CPU 기반으로 돌리고 있음
50개 주의 선거법을 RAG로 인덱싱해 용어 불일치와 환각 문제를 시각화하려는 프로젝트를 진행 중임
목표는 선거 절차의 무결성 격차를 파악하는 것임
관련 마인드맵은 Election Frauds v1.4 Mindmap PDF에서 볼 수 있음- 이런 사회적 프로젝트에 재능을 쓰는 건 정말 멋진 일임
-
로컬 LLM으로 코딩을 하긴 하지만, 노트북에서는 상상도 못함
GPU 서버에서 llama.cpp + llama-swap으로 모델을 전환하며 사용 중임
가장 만족스러운 환경은 Aider + gpt-oss-120b 조합임
Ryzen AI Max+ 128GB RAM으로도 가능하겠지만, 비NVIDIA 하드웨어는 속도가 매우 느림
OpenRouter를 통해 데이터 보존 없는 제공자만 선택할 수도 있음
하지만 GPT5나 Claude는 로컬보다 훨씬 빠르고 저렴함-
gpt-oss-120b로 RAG 에이전트를 만들어 GCP 문서를 학습시켰음
ChatGPT는 6분에 46/50, gpt-oss-120b는 1시간에 47/50을 기록했음
i7 + 64GB RAM + 8GB VRAM GPU 환경에서 실행했음 - llama-swap GitHub 링크
-
gpt-oss-120b로 RAG 에이전트를 만들어 GCP 문서를 학습시켰음
-
Mac에서 로컬 코드 에이전트를 돌리고 싶다면 다음처럼 하면 됨
-
npm install -g @openai/codex -
brew install ollama; ollama serve -
ollama pull gpt-oss:20b -
codex --oss -m gpt-oss:20b
인터넷 없이 동작하며, M1 이상 Mac + 24GB GPU 메모리가 필요함
120b 모델은 20b보다 1.5배 성능이지만 요구 사양은 5배임
- LM Studio는 더 간단하며 JetBrains IDE나 Zed와도 연동됨
- 20b 모델로 실제로 가치 있는 코드를 만들 수 있었는지 궁금함
-
-
MacBook Pro 64GB에서 Qwen3-Coder-30B-A3B Q4 quant를 llama.cpp로 돌리고 있음
VSCode에서는 continue.dev를 써서 시스템 프롬프트를 짧게 설정함
초당 50토큰 생성, 550토큰 처리 속도를 얻음
짧고 명확한 작업에서는 프론티어 모델과 비슷한 품질을 보여줌
오프라인 환경에서도 빠르고 안정적이라 만족함
더 복잡한 작업은 Claude나 Deepseek API를 사용함- continue.dev의 Instinct 모델을 써봤는지, Qwen과 비교가 궁금함
- 128GB 머신이라면 다른 quant를 쓰는 게 나을지, Hugging Face 다운로드 링크를 공유해달라는 요청이 있었음
- Qwen3를 llama-vscode에서 어떻게 돌리는지 묻는 댓글도 있었음 (이슈 링크)
-
Mac을 살 거라면 Pro 모델 이상을 추천함
Air에는 팬이 없어 열 관리가 안 됨, Mac mini보다 Studio가 낫다고 생각함
TG Pro 앱으로 팬을 더 민감하게 조정할 수 있음 (약 $20)
M4 Pro + 24GB RAM MacBook Pro에서 GPT OSS 20B 모델을 돌리지만 컨텍스트 윈도우가 작음
128GB 모델이라면 하루 종일 오프라인 코딩도 가능할 듯함- Mac mini에도 팬이 있고, Studio는 단지 더 강력한 칩을 탑재한 버전임
- Mac을 산다면 Max나 Ultra 칩 + 최대 메모리 구성이 이상적임
- 128GB MacBook Pro는 컨텍스트 캐시 성능이 압도적임
- 기본 컨텍스트 윈도우는 작지만, gpt-oss-20b에서는 4배로 확장 가능함
- M3/M4 + 128GB에서도 긴 프롬프트 처리 속도가 느리다는 의견이 있었음
-
Apple M4 Max 128GB와 GPD Win 4 (Ubuntu 24.04) 를 USB-C로 연결해 사용 중임
Claude Code, RA.Aid, llama.cpp를 조합해 Agent Organizer로 작업을 분배함
Claude가 아키텍처 설계부터 코드 리뷰까지 자동화함- GPD Win 4가 어떤 역할을 하는지, 작은 모델로 분산 처리하는지 묻는 질문이 있었음
- 각 모델의 토큰 처리 속도를 묻는 댓글도 있었음
- 사용 중인 Agent Organizer가 무엇인지 궁금하다는 질문도 있었음
-
LLM 워크스테이션을 보고 싶다면 Alex Ziskind의 YouTube 채널(@AZisk)을 추천함
다양한 로컬 LLM용 워크스테이션 리뷰를 다룸
발표도 깔끔하고 조언이 실용적임- 스폰서 지원이 있겠지만, 장비를 직접 구매해 리뷰하는 리스크 감수가 인상적임
- “쓸데없는 말 없이 핵심만 말하는 채널”이라며 추천하는 댓글도 있었음
-
MacBook Pro M4 Max 128GB에서 LMStudio와 Ollama를 주로 사용함
모델은 qwen3-coder-30b A3B Instruct 8-bit MLX와 gpt-oss-120b-MXFP4-Q8
대규모 코드 생성은 한계가 있지만, 로컬 리포 요약·문서화에는 충분함
관련 커뮤니티도 활발함- r/LocalLLM
- r/LocalLLaMA
- Mac에서 Coderunner(GitHub 링크)를 쓰면 LLM이 생성한 코드를 안전하게 샌드박스 실행할 수 있음
- LM Studio API와 qwen CLI를 연결하면 Claude Code와 유사한 환경을 만들 수 있음
README 생성에는 gemma3-27b-it-qat와 gpt-oss-120b를 선호함
-
MacBook Pro M1 Pro 32GB + Asahi Linux에서 Qwen3:32b를 CLI로 돌리고 있음
ARMv8 어셈블리나 SoC 관련 도움을 받음
속도는 읽는 속도보다 약간 느린 정도로 충분히 쓸 만함
Qwen3-coder가 더 빠르다는 얘기를 듣고 관심이 생김
클라우드나 에이전트 통합 없이 완전한 로컬 환경을 선호함
Ollama가 오프라인 중심에서 벗어나서 이제 llama.cpp로 전환하려 함
모델 포맷이 달라서 Ollama 모델을 그대로 쓸 수 있을지 고민 중임
[주의] 리눅스에서는 전력 소모가 커서 반드시 전원 연결 상태로 써야 함- Qwen3 Coder는 MoE 구조(30B 중 3B 활성) 라 훨씬 빠름
일반 작업엔 덜 똑똑하지만 코딩 중심 작업엔 효율적임
- Qwen3 Coder는 MoE 구조(30B 중 3B 활성) 라 훨씬 빠름