# 로컬에서 오픈 LLM과 코딩 어시스턴트를 사용하시나요? 환경을 공유해주세요

> Clean Markdown view of GeekNews topic #24071. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24071](https://news.hada.io/topic?id=24071)
- GeekNews Markdown: [https://news.hada.io/topic/24071.md](https://news.hada.io/topic/24071.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-01T11:37:04+09:00
- Updated: 2025-11-01T11:37:04+09:00
- Original source: [news.ycombinator.com](https://news.ycombinator.com/item?id=45771870)
- Points: 16
- Comments: 6

## Summary

해커뉴스 개발자들이 공유한 로컬 **LLM 코딩 어시스턴트 세팅** 경험담이 흥미롭습니다. **Mac M4 Max 128GB + Ollama/LM Studio** 조합부터 **RTX 4090 원격 서버 + VS Code Continue** 구조, 그리고 **AMD Strix Halo 노트북**까지, 각자의 하드웨어와 워크플로우에 맞춘 실전 세팅이 다양하게 등장했습니다. 공통된 인식은 명확한데요. 아직 로컬 모델이 **GPT‑5급 에이전트**를 완전히 대체하진 못하지만, **프라이버시·지연·버전 안정성** 면에서는 여전히 매력적인 선택지라는 점입니다. 클라우드 의존도를 줄이고 싶은 개발자라면, 이 스레드가 현실적인 참고서가 될 듯합니다.

## Topic Body

- Hacker News 사용자들에게 **로컬에서 오픈 LLM과 코딩 어시스턴트를 어떤 랩탑 하드웨어에서 어떻게 사용하는지** 묻는 **Ask HN** 스레드   
- 어떤 모델(예: Ollama, LM Studio 등)을 사용하고, 어떤 오픈소스 코딩 어시스턴트/통합 솔루션(예: VS Code 플러그인)을 사용하는지  
- 어떤 노트북 하드웨어(CPU, GPU/NPU, 메모리, 개별 GPU 또는 통합 GPU, OS)를 사용하며, 워크플로우에서 어떤 성능을 보이는지  
- 어떤 작업에 사용하는지(코드 완성, 리팩토링, 디버깅, 코드 검토)? 그리고 안정성은 어느 정도인지(잘 작동하는 부분과 부족한 부분)  
  
---  
  
- **1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue**  
  - 장점  
    - 맥 통합 메모리 덕분에 **Qwen3-Coder-30B-A3B**, **gpt-oss-20b**, **Gemma 27B**까지 그냥 로컬에서 돌아가서 “코드 읽어와 → 요약 → 작은 수정” 워크플로우가 됨  
    - **LM Studio API**나 **Ollama serve**만 켜두면 VS Code **Continue.dev**, Zed, JetBrains가 바로 붙어서 사실상 Claude Code 비슷한 UX를 맛볼 수 있음  
    - 맥 특유의 저지연이라 토큰 50~80 tok/s 수준이면 코드 보완·주석 생성은 답답하지 않은 편임  
    - 비행기/기차/오프라인에서도 되는 게 커서 “회사 코드 안 밖으로 안 나가게” 만드는 용도로 적합함  
  - 단점  
    - 20B 넘는 모델부터는 **발열** + 팬소음 이슈가 있고, M4 Max 128GB여도 120B는 느리거나 한계가 보임  
    - “Claude 4.5 Sonnet처럼 bash-in-a-loop로 끝까지 밀어주는” 에이전트 시나리오는 아직 부족함  
    - 24GB, 32GB급 맥북은 VRAM 할당이 작아서 결국 7B~12B급으로 내려와야 하고, 콘텍스트를 크게 키우면 바로 느려짐  
  
- **2) 데스크톱/워크스테이션에 RTX 3090·4090·Pro 6000 달고, 노트북은 얇은 클라이언트로 쓰는 구조**  
  - 장점  
    - **llama.cpp / vLLM / Ollama**를 전부 시도할 수 있고, gpt-oss-120B도 “느리지만 실제로” 돌려볼 수 있음  
    - VS Code에서 **Continue**나 **llama-vscode**를 노트북에서 띄우고, 모델은 집에 둔 박스에서 추론하니 노트북 배터리·발열 부담이 거의 없음  
    - RTX 3090 24GB 기준으로 **gpt-oss-20B, Qwen2.5/3 Coder 14~30B**는 실사용 토큰 속도가 나와서 자동완성+짧은 리팩토링 정도는 충분함  
    - 집에 **Open WebUI + Ollama** 올려두고 VPN/Tailscale로 붙는 패턴이 많아서 원격에서도 프라이빗 환경 유지 가능함  
  - 단점  
    - GPU VRAM이 24GB 이하이면 120B는 강하게 양자화해야 해서 품질이 눈에 띄게 떨어짐  
    - vLLM이 성능은 좋은데 설치·빌드가 귀찮아서 “업데이트된 러너로 다시 돌려보라”는 말이 나올 정도로 관리비가 듦  
    - 휴대성은 사실상 없으므로 “진짜 노트북 단일기기로 끝내기” 목적이면 이 구조는 맞지 않음  
  
- **3) gpt-oss-120B 중심 세팅 (Aider, Codex, 로컬 에이전트)**  
  - 장점  
    - 여러 명이 “로컬에서 써본 것 중에 이게 제일 GPT-5에 근접했다”는 식으로 말할 만큼 **코딩 태스크 정확도**가 높게 나왔음  
    - Aider, Codex, roocode 같은 오픈 코딩 어시스턴트에 붙여서 **리뷰 → 수정 → 테스트 → 커밋**까지 한 번에 시키는 실험이 실제로 돌아감  
    - llama.cpp에서 **CPU+GPU 혼합 로드**로 8GB VRAM에서도 억지로 돌려보는 팁들이 공유돼 있어서 하드웨어 요구치가 생각보다 유연함  
  - 단점  
    - 속도가 문제임. 같은 50문항을 ChatGPT가 6분에 끝낼 걸 120B는 1시간 넘게 물어뜯는 식이라, “기다림을 감수하는 사람”용임  
    - Codex 같은 도구에서는 **inference 파라미터를 하드코딩**해서 안 멈추게 해야 하고, AGENTS.md를 무겁게 써줘야 사람처럼 일함  
    - 노트북 단독으론 열·전력·메모리 때문에 장시간 돌리기 어렵고, 사실상 “노트북에서 원격 GPU에 붙는” 형태로 보는 게 맞음  
  
- **4) AMD Strix Halo / Ryzen AI / Framework 128GB 같은 대용량 RAM 노트북 + llama.cpp/Continue.dev**  
  - 장점  
    - 128GB RAM이면 **Qwen3 Coder 30B**도 실사용 가능하고, 필요한 레이어만 GPU/NPU에 얹고 나머지는 RAM으로 돌리는 하이브리드가 됨  
    - 사람들 말로는 “회사 밖으로 코드가 못 나가야 한다”거나 “AMD라 클라우드 드라이버가 아직 별로다” 같은 상황에서 현실적인 선택지였음  
    - lemonade-server처럼 **간단한 llama.cpp 서버**를 부팅시 자동 실행해두고 편집기는 네트워크로 붙는 구조가 잘 먹힘  
  - 단점  
    - 리눅스에서 **절전/카메라/드라이버**가 아직 매끄럽지 않다는 보고가 있고, 6.18 커널을 봐야 하는 경우도 있었음  
    - NPU 성능이 NVIDIA급으로 안 나와서 “프롱티어 수준 에이전트”는 꿈도 못 꾸고, 결국 20~30B의 ‘조수’ 용도로 멈춤  
    - AMD용 자료는 GitHub 리포나 포럼을 타고 찾아야 해서 정보 밀도가 맥·NVIDIA보다 낮음  
  
- **5) 16~32GB급 일반 노트북(MacBook Air, M2/M3 Pro 낮은 RAM) + 7B~12B 모델로 FIM 자동완성만 쓰는 세팅**  
  - 장점  
    - **qwen2.5-coder:7b**, **mistral 7b instruct**, **gemma3:12b** 정도만 써도 “이 줄 이어서 써줘”, “SQL 이 구문 뭐더라” 같은 건 바로바로 나옴  
    - **llama-vscode 플러그인**이나 **Continue.dev**를 붙이면 인터넷 끊겨도 자동완성은 계속돼서 작업 리듬이 안 끊김  
    - 하드웨어 부담이 적어서 발열과 팬소음이 거의 없고, 배터리도 빨리 안 닳음  
  - 단점  
    - 문맥이 조금만 길어져도 바로 헛소리 비율이 늘고, 리팩토링·테스트 코드 생성처럼 “여러 파일을 동시에 이해해야 하는” 건 거의 불가  
    - 사람들 대체로 “이건 클라우드 모델 대체가 아니라, autocomplete 전용이다”라고 못을 박았음  
    - 모델을 4비트로 심하게 줄여야 하므로 모델 선택의 폭이 좁음  
  
- **6) 완전 오프라인/프라이버시 우선 세팅 (Ollama + Open WebUI + VPN)**  
  - 장점  
    - 집에 Mac Studio M4 Max 128GB나 데스크톱 하나 두고 **Ollama + Open WebUI**만 띄워두면, 밖에서는 노트북·폰에서 VPN으로 붙어도 모든 게 로컬임  
    - 이 구조를 쓴 사람들은 “이제 ChatGPT 거의 안 쓴다”, “버전이 안 바뀌니까 튜닝해둔 프롬프트가 안 망가진다”는 걸 강점으로 꼽음  
    - 사내에서 “모든 코드가 학습될 수 없다”는 요구가 있을 때 가장 설명이 쉬운 구조임  
  - 단점  
    - 모델 업그레이드/교체를 스스로 해야 해서, 클라우드처럼 “알아서 더 똑똑해진다”는 게 없음  
    - GPU가 약하면 20B 이상은 바로 느려지므로 결국 하드웨어를 늘려야 하고, 그 순간 “이걸 왜 클라우드로 안 했지?” 생각이 듦  
  
- **7) 결론적으로 나온 공통 인식**  
  - “노트북 단독”으로는 아직 **Claude Code / GPT-5 + 에이전트**를 대체하기 어렵고, 로컬은 **짧은 코드 생성·도움말·요약·자동완성**에 제일 잘 맞음  
  - 그래서 많이 나온 모양새는 **“노트북 ↔ 집에 있는 큰 박스”** 거나 **“맥 128GB로 20~30B만 빠르게”** 였음  
  - 그럼에도 다들 하는 말은 같았음: **프라이버시 보장 + 지연 거의 없음 + 버전이 안 바뀜** 이 세 개가 필요하면 지금도 로컬이 답임

## Comments


### Comment 45787

- Author: kaydash
- Created: 2025-11-02T14:18:02+09:00
- Points: 1

vpn을 쓰는것보다 bearer token을 설정하고 ssh tunneling을 쓰는게 더 좋을것같은데

### Comment 45779

- Author: savvykang
- Created: 2025-11-02T11:00:53+09:00
- Points: 1

LLM 셀프호스팅 시작은 앞으로 5년 동안은 선투자 비용이 커서 수지타산이 맞지 않는 상태가 지속될 거라 생각합니다. 3~5년 후에 코드 자동완성 한정으로 적당히 빠른 하드웨어가 나와서 가격 메리트가 생겼을 때 다시 고민해볼 예정입니다  
  
검토한 구성들  
  
1. 올인원 구성: 업무장비에서 LLM 구동 불가합니다. 개발툴, 브라우저 기반 앱들 돌리기에도 램이 모자랍니다  
2. LLM 전용 머신 구성: 회사에선 그래픽카드가 없어서 구동 불가합니다. 개인용 PC로도 사양 선투자가 쉽지 않습니다

### Comment 45738

- Author: neo
- Created: 2025-11-01T11:37:04+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45771870) 
- AI를 직접 다뤄보고 싶어서 **Dell Precision 3620 Tower i7-7700**을 중고로 구입했음  
  RAM을 업그레이드하고, GPU로 **RTX 3060**을 달기 위해 전원 공급 장치도 교체했음  
  Ubuntu Server를 설치하고 집의 **k3s 클러스터 노드**로 구성했으며, Ollama와 OpenWebUI를 돌리고 있음  
  주로 Karakeep의 **AI 태깅과 요약**에 쓰지만, Python 코드로 택배 차량을 감지하는 드라이브웨이 카메라 분석에도 활용 중임  

- GPU 없이 **Dell Precision T710**(Xeon E6320, 120GB RAM, RAID5 SSD 240TB)에서 Ollama를 CPU 기반으로 돌리고 있음  
  50개 주의 선거법을 RAG로 인덱싱해 **용어 불일치와 환각 문제**를 시각화하려는 프로젝트를 진행 중임  
  목표는 선거 절차의 **무결성 격차**를 파악하는 것임  
  관련 마인드맵은 [Election Frauds v1.4 Mindmap PDF](https://figshare.com/articles/presentation/Election_Frauds_v1_4_Mindmap_PDF/23528385)에서 볼 수 있음
  - 이런 사회적 프로젝트에 재능을 쓰는 건 정말 멋진 일임  

- 로컬 LLM으로 코딩을 하긴 하지만, 노트북에서는 상상도 못함  
  GPU 서버에서 **llama.cpp + llama-swap**으로 모델을 전환하며 사용 중임  
  가장 만족스러운 환경은 **Aider + gpt-oss-120b** 조합임  
  Ryzen AI Max+ 128GB RAM으로도 가능하겠지만, **비NVIDIA 하드웨어는 속도가 매우 느림**  
  OpenRouter를 통해 **데이터 보존 없는 제공자만 선택**할 수도 있음  
  하지만 GPT5나 Claude는 로컬보다 훨씬 빠르고 저렴함
  - **gpt-oss-120b**로 RAG 에이전트를 만들어 GCP 문서를 학습시켰음  
    ChatGPT는 6분에 46/50, gpt-oss-120b는 1시간에 47/50을 기록했음  
    i7 + 64GB RAM + 8GB VRAM GPU 환경에서 실행했음  
  - [llama-swap GitHub 링크](https://github.com/mostlygeek/llama-swap)  

- Mac에서 로컬 코드 에이전트를 돌리고 싶다면 다음처럼 하면 됨  
  1. `npm install -g @openai/codex`  
  2. `brew install ollama; ollama serve`  
  3. `ollama pull gpt-oss:20b`  
  4. `codex --oss -m gpt-oss:20b`  
  인터넷 없이 동작하며, **M1 이상 Mac + 24GB GPU 메모리**가 필요함  
  120b 모델은 20b보다 1.5배 성능이지만 요구 사양은 5배임  
  - **LM Studio**는 더 간단하며 JetBrains IDE나 Zed와도 연동됨  
  - 20b 모델로 실제로 가치 있는 코드를 만들 수 있었는지 궁금함  

- **MacBook Pro 64GB**에서 **Qwen3-Coder-30B-A3B Q4 quant**를 llama.cpp로 돌리고 있음  
  VSCode에서는 **continue.dev**를 써서 시스템 프롬프트를 짧게 설정함  
  초당 50토큰 생성, 550토큰 처리 속도를 얻음  
  짧고 명확한 작업에서는 **프론티어 모델과 비슷한 품질**을 보여줌  
  오프라인 환경에서도 빠르고 안정적이라 만족함  
  더 복잡한 작업은 Claude나 Deepseek API를 사용함
  - continue.dev의 [Instinct 모델](https://blog.continue.dev/instinct/)을 써봤는지, Qwen과 비교가 궁금함  
  - 128GB 머신이라면 다른 quant를 쓰는 게 나을지, Hugging Face 다운로드 링크를 공유해달라는 요청이 있었음  
  - Qwen3를 llama-vscode에서 어떻게 돌리는지 묻는 댓글도 있었음 ([이슈 링크](https://github.com/ggml-org/llama.vscode/issues/55))  

- Mac을 살 거라면 **Pro 모델 이상**을 추천함  
  Air에는 팬이 없어 **열 관리가 안 됨**, Mac mini보다 **Studio**가 낫다고 생각함  
  TG Pro 앱으로 팬을 더 민감하게 조정할 수 있음 (약 $20)  
  M4 Pro + 24GB RAM MacBook Pro에서 GPT OSS 20B 모델을 돌리지만 **컨텍스트 윈도우가 작음**  
  128GB 모델이라면 하루 종일 오프라인 코딩도 가능할 듯함  
  - Mac mini에도 팬이 있고, Studio는 단지 더 강력한 칩을 탑재한 버전임  
  - Mac을 산다면 **Max나 Ultra 칩 + 최대 메모리** 구성이 이상적임  
  - 128GB MacBook Pro는 **컨텍스트 캐시 성능이 압도적**임  
  - 기본 컨텍스트 윈도우는 작지만, gpt-oss-20b에서는 4배로 확장 가능함  
  - M3/M4 + 128GB에서도 긴 프롬프트 처리 속도가 느리다는 의견이 있었음  

- **Apple M4 Max 128GB**와 **GPD Win 4 (Ubuntu 24.04)** 를 USB-C로 연결해 사용 중임  
  Claude Code, RA.Aid, llama.cpp를 조합해 **Agent Organizer**로 작업을 분배함  
  Claude가 **아키텍처 설계부터 코드 리뷰까지 자동화**함  
  - GPD Win 4가 어떤 역할을 하는지, 작은 모델로 분산 처리하는지 묻는 질문이 있었음  
  - 각 모델의 토큰 처리 속도를 묻는 댓글도 있었음  
  - 사용 중인 Agent Organizer가 무엇인지 궁금하다는 질문도 있었음  

- LLM 워크스테이션을 보고 싶다면 **Alex Ziskind의 YouTube 채널**([@AZisk](https://www.youtube.com/@AZisk))을 추천함  
  다양한 **로컬 LLM용 워크스테이션 리뷰**를 다룸  
  발표도 깔끔하고 조언이 실용적임  
  - 스폰서 지원이 있겠지만, 장비를 직접 구매해 리뷰하는 **리스크 감수**가 인상적임  
  - “쓸데없는 말 없이 핵심만 말하는 채널”이라며 추천하는 댓글도 있었음  

- **MacBook Pro M4 Max 128GB**에서 **LMStudio와 Ollama**를 주로 사용함  
  모델은 qwen3-coder-30b A3B Instruct 8-bit MLX와 gpt-oss-120b-MXFP4-Q8  
  대규모 코드 생성은 한계가 있지만, **로컬 리포 요약·문서화**에는 충분함  
  관련 커뮤니티도 활발함  
  - [r/LocalLLM](https://www.reddit.com/r/LocalLLM/)  
  - [r/LocalLLaMA](https://www.reddit.com/r/LocalLLaMA/)  
  - Mac에서 **Coderunner**([GitHub 링크](https://github.com/instavm/coderunner))를 쓰면 LLM이 생성한 코드를 **안전하게 샌드박스 실행**할 수 있음  
  - LM Studio API와 qwen CLI를 연결하면 **Claude Code와 유사한 환경**을 만들 수 있음  
    README 생성에는 gemma3-27b-it-qat와 gpt-oss-120b를 선호함  

- **MacBook Pro M1 Pro 32GB + Asahi Linux**에서 **Qwen3:32b**를 CLI로 돌리고 있음  
  ARMv8 어셈블리나 SoC 관련 도움을 받음  
  속도는 읽는 속도보다 약간 느린 정도로 충분히 쓸 만함  
  **Qwen3-coder**가 더 빠르다는 얘기를 듣고 관심이 생김  
  클라우드나 에이전트 통합 없이 **완전한 로컬 환경**을 선호함  
  Ollama가 오프라인 중심에서 벗어나서 이제 **llama.cpp로 전환**하려 함  
  모델 포맷이 달라서 Ollama 모델을 그대로 쓸 수 있을지 고민 중임  
  [주의] 리눅스에서는 전력 소모가 커서 반드시 전원 연결 상태로 써야 함  
  - Qwen3 Coder는 **MoE 구조(30B 중 3B 활성)** 라 훨씬 빠름  
    일반 작업엔 덜 똑똑하지만 **코딩 중심 작업엔 효율적**임

### Comment 45790

- Author: chcv0313
- Created: 2025-11-02T16:06:27+09:00
- Points: 1
- Parent comment: 45738
- Depth: 1

쭉 읽다 보니까..... 의외로 DGX SPARK 수요가 있겠구나 라는 생각이 듭니다? 처음에는 그거 가성비 똥망 왜사냐! 라고 생각했었는데,

### Comment 45776

- Author: aer0700
- Created: 2025-11-02T10:35:17+09:00
- Points: 2

사내 보안 정책 때문에 외부 LLM API는 전혀 사용하고 있지 않고, 사내 클라우드 관리 부서에서 vllm 기반으로 gpt oss 제공해주시는 것으로 사용 중 입니다.

### Comment 45777

- Author: aer0700
- Created: 2025-11-02T10:37:27+09:00
- Points: 1
- Parent comment: 45776
- Depth: 1

로컬이라기엔 좀 애매하긴 하네요.