# Apple Silicon은 OpenRouter보다 비용이 더 든다

> Clean Markdown view of GeekNews topic #29629. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29629](https://news.hada.io/topic?id=29629)
- GeekNews Markdown: [https://news.hada.io/topic/29629.md](https://news.hada.io/topic/29629.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-18T22:36:24+09:00
- Updated: 2026-05-18T22:36:24+09:00
- Original source: [williamangel.net](https://www.williamangel.net/blog/2026/05/17/offline-llm-energy-use.html)
- Points: 1
- Comments: 1

## Topic Body

- **로컬 추론 비용**은 전기료보다 기기 가격의 영향이 크며, M5 Max MacBook Pro 64GB 모델은 $4,299로 계산됨
- 부하 상태의 Apple Silicon 노트북은 **50~100W**를 쓰고, kWh당 $0.20 기준 전기료는 하루 약 $0.48에 그침
- Gemma4:31b는 M5 Max에서 초당 **10~40토큰**으로 관측돼, 백만 토큰당 비용이 약 $0.40~$4.79까지 벌어짐
- OpenRouter의 Gemma4 31b는 백만 토큰당 약 **$0.38~$0.50**이라, 매우 낙관적인 조건에서만 MacBook Pro Max와 비슷해짐
- 로컬 추론은 대체로 OpenRouter보다 비싸고 느리며, 회계상 Pro Max 비용은 백만 토큰당 약 **3배**로 잡는 편이 적절함

---

### 로컬 추론 비용 계산
- **전기요금**은 Northern Virginia의 최근 청구서 기준 kWh당 $0.18이며, 계산에서는 kWh당 $0.20로 높여 잡음
- [EIA의 2025년 미국 주거용 평균 전기요금](https://www.eia.gov/electricity/monthly/epm_table_grapher.php?t=table_5_03)은 kWh당 $0.1730임
- Apple Silicon 노트북이 부하 상태에서 **50~100W**를 쓰면 전기료는 시간당 $0.009~$0.018이고, 대략 시간당 $0.02로 계산 가능함
- 100% 추론을 계속 돌려도 전기료는 하루 **$0.48** 수준임
- 14인치 **M5 Max MacBook Pro** 64GB 모델은 Apple 웹사이트 기준 $4,299이며, 64GB는 Gemma 4 31b 같은 모델을 실행할 수 있는 수준으로 잡힘
- 하드웨어 수명을 3년, 5년, 10년으로 나누면 연간 비용은 각각 $1,433, $860, $430임
- 시간당 하드웨어 비용은 3년 기준 $0.16358, 5년 기준 $0.09815, 10년 기준 $0.04908로 계산됨
- 일반 사용에서는 **5년**이 합리적인 수명 추정이고, 7년이나 10년도 가능하지만 최대 추론 부하에서는 3년도 합리적인 추정이 될 수 있음

### 토큰당 비용과 OpenRouter 비교
- 로컬 모델 비용의 핵심 변수는 시간당 생성 가능한 **토큰 수**이며, M5 Max 테스트에서 Gemma4:31b 같은 모델은 초당 10~40토큰 범위였음
- 초당 10토큰이면 시간당 36,000토큰이며, 3~10년 수명과 kWh당 $0.18 기준 백만 토큰당 비용은 **$1.61~$4.79**로 계산됨
- 초당 40토큰이면 시간당 144,000토큰이며, 백만 토큰당 비용은 **$0.40~$1.20**까지 내려감
- Apple Silicon에서는 전기료보다 **하드웨어 비용**이 전체 비용을 좌우함
- OpenRouter의 Gemma4 31b 가격은 백만 토큰당 약 **$0.38~$0.50**임
- 50W, 초당 40토큰, 10년 사용이라는 낙관적 조건에서는 MacBook Pro Max가 OpenRouter와 비슷한 비용까지 내려감
- 100W, 초당 10토큰, 3년 사용이라는 비관적 조건에서는 MacBook Pro Max가 OpenRouter보다 **10배** 비쌈
- 회계 관점에서 Pro Max의 로컬 추론 비용은 OpenRouter 대비 백만 토큰당 약 **3배**로 보는 추정이 적절함
- 대부분의 경우 비용보다 **추론 속도**가 더 큰 변수이며, 로컬 추론은 클라우드 추론보다 느림
- OpenRouter의 일부 Gemma 4 제공자는 초당 60~70토큰까지 도달하며, Pro Max에서 관측된 초당 10~20토큰보다 **3~7배** 빠름
- 업무용 노트북을 쓰는 직원의 급여 비용은 로컬에서 생성 가능한 토큰 비용보다 약 **1000배** 크기 때문에, 이 맥락에서는 Anthropic에 비용을 쓰는 편이 더 타당함
- 소비자용 기기에서 Anthropic Sonnet에 가까운 성능의 모델을 실행할 수 있다는 점은 여전히 놀라운 결과로 남음

## Comments


### Comment 57727

- Author: neo
- Created: 2026-05-18T22:36:24+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48168198) 
* 이 분석은 별로 좋지 않은데, 모든 값을 계속 올림해서 계산하기 때문임. 전기요금을 10% 올려 잡고, 전력 사용량 범위에서는 낮은 값의 2배인 상한을 택한 뒤, 거기에 부풀린 전기요금을 곱함  
  그런데 새로 산 Mac을 추론용으로 24시간 최대 부하로 돌린다는 전제를 둠. 왜 그렇게 해야 하나? Apple Silicon은 빠르지만, 글쓴이도 지적하듯 초당 10~40 토큰 정도라 나쁘지는 않아도 원래 그런 용도는 아님  
  **데이터센터**는 가정용 전기요금을 내지 않고, 전력 효율 좋은 칩을 쓰며, Mac으로 설계되지 않은 칩을 씀. Apple Silicon은 24/7/365로 토큰을 태우지 않고, 그 목적만으로 하드웨어를 새로 사지 않는다면 꽤 괜찮음. Mac Studio를 필요한 작업에 주 몇 번 쓰면서 tailnet 너머로 ollama를 “공짜처럼” 돌릴 수 있음. Mac Studio를 액체냉각 H100 클러스터처럼 굴리려 하지 않을 때 경제성이 맞고, 멀티테넌트 하드웨어와 싼 전기로 와트당 토큰 수가 더 높은 쪽이 거의 항상 이기는 건 당연함
  * 가장 낙관적인 설정으로 전부 낮춰 잡아도 **백만 토큰당 $0.40**이 나왔고, OpenRouter에는 같은 모델이 $0.38/백만 토큰임
  * 글 자체가 말이 안 됨. OpenRouter를 **범용 컴퓨터**로 쓸 수는 없는데, 왜 전체 컴퓨터와 단일 목적 SaaS를 비교하나
  * 초당 40토큰이라는 수치가 어디서 나온 건지 모르겠음. M5 Max 128GB에서 Gemma 4 31B를 돌리면 **초당 95~100토큰**을 본 적 있음. 같은 프롬프트에서 Claude Opus 4.5보다 빠른 실험도 해봤음
  * 사실 토큰을 24시간 생성한다고 계산하는 게 최선의 경우임. 하루 8시간 실제 사용으로 계산하면 하드웨어 고정비가 여전히 예산의 가장 큰 부분인데 생성 토큰은 1/3이 되므로 **토큰당 비용**은 3배가 됨

* 내가 잘못 이해한 게 아니라면, 이 계산은 토큰 생성 비용에 **노트북 전체 가격**을 넣고 있음. 돈을 낸 대가로 LLM 출력뿐 아니라 노트북도 받았다는 점이 빠진 듯함  
  이 기계를 어두운 구석에 두고 오직 토큰을 먹는 서버로만 돌릴 생각이라면 노트북은 이 목적에 정말 나쁜 기술 선택임. 하지만 노트북을 노트북으로 쓸 생각이라면, 노트북이 생긴다는 건 없는 것보다 큰 이점임  
  또한 **프라이버시**, 검열로부터의 자유, 사용 모델에 대한 통제권도 얻음. 특정 모델의 특성에 맞춰 워크플로를 만든 지 3개월 뒤 그 모델이 갑자기 사라지는 일을 피할 수 있음
  * 더 나은 지표는 로컬 모델을 돌리기 위해 필요한 노트북과, 어차피 샀을 노트북 사이의 **가격 차이**일 수 있음
  * 모델 통제권은 얻지만, 가장 성능 좋은 모델들에는 접근하지 못하고 작은 모델만 돌릴 수 있음
  * LLM 출력뿐 아니라 노트북도 받았고, 게다가 Mac이라면 업그레이드할 때도 **중고가**가 꽤 남아 있을 것임
  * OpenRouter로는 Cyberpunk 2077을 5K HDR 최고 설정으로 못 돌림
  * 원글은 Mac을 사재기하는 데 정신이 팔린 사람들에 비하면 **절대적 최선의 경우**를 보여주는 셈임  
    이런 사람들 중 말도 안 되게 많은 수가 $10,000 이상을 Mac Studio에 썼지만, 여전히 연산 병목이 있고 Gemma 4보다 효율적인 선택지도 별로 없음

* **프런티어 AI 회사들**은 손해를 보며 팔고 있음  
  u/bastawhiz가 한 말[0]을 다 제쳐두더라도, Claude, OpenAI, Gemini 등은 말 그대로 수천억 달러를 태우면서, 마지막까지 살아남는 쪽이 되기를 바라며 1달러짜리를 몇 센트에 되파는 중임  
  내가 오렌지를 키우는 데 $10을 쓰고 $1에 판다면, 당연히 직접 키우는 쪽이 더 비싸 보임. 이 모델들은 시간이 갈수록 비싸질 수밖에 없고, 큰 손실 판매를 멈춰야 하기 전에 시장을 장악하려는 것뿐임  
  [0]: [https://news.ycombinator.com/item?id=48168433](<https://news.ycombinator.com/item?id=48168433>)
  * 그럴 가능성은 낮아 보임. OpenRouter에는 공개 모델을 제공하는 공급자가 많고, 이들이 파는 토큰마다 돈을 버리고 있다고 보기는 어려움  
    또한 규모가 커질수록 추론이 훨씬 효율적이 되는 **기술적 이유**도 있음
  * 블로그는 Gemma4 31B 실행 비용을 비교하고 있는데, OpenRouter에서는 이 모델을 프런티어 AI 회사가 아니라 작은 무명 추론 제공자들이 제공함. 꽤 공정한 비교로 보임
  * 그래도 **규모의 효율**은 훨씬 많이 가능함. 내 현재 작업량으로는 로컬 모델을 24시간 98% 활용 상태로 유지할 수 없지만, 큰 클라우드는 가능함. 내 서버를 직류로 전원 공급할 수도 없고, 교류를 직류로 바꾸는 비효율도 있음. 이런 요소가 계속 이어짐
  * 그건 사실이 아님. **API 토큰**은 손해 보고 팔리지 않고, 하드웨어는 시간이 지날수록 효율이 좋아져서 같은 모델의 추론 제공 비용은 내려감  
    LLAMA 3.1 405B는 2024년에 백만 토큰당 $6/$12였지만, 2026년에는 같은 모델이 $3/$3임. 특정 시점의 가장 지능적인 모델은 이전보다 훨씬 커지기 때문에 GPT5.5 토큰 비용이 5.4보다 높은 것임. 하지만 2년 뒤에는 GPT5.5 크기의 모델을 제공하는 비용이 오늘의 GPT5.5보다 싸질 가능성이 높음. 증류 기법이 같은 벤치마크 점수에 필요한 매개변수 수를 줄이는 데 효과적이므로, 2년 뒤에는 같은 수준의 지능도 더 싸게 얻을 수 있을 것임
  * 근거가 있나? Anthropic CEO는 회사가 **흑자**라고 했고, OpenAI도 마찬가지라고 했음

* 좋은 밀집 모델을 원하면 qwen3.6 27B를 쓰는 편이 나음. 속도도 올라가고, 더 똑똑하다는 내 말을 못 믿겠다면 더 크고 느리고 메모리 효율도 낮은 Gemma와 비교한 **OpenRouter 가격**이 대신 말해줌  
  더 빠른 모델을 원하면 qwen3.6 35B를 쓰면 됨. Gemma 모델이 자기 작업에 더 잘 맞는다면 gemma 4 26B도 가능함. 사람들이, 나 포함해서, 이 둘 특히 27B 얘기를 계속한 데는 이유가 있음. 충분히 작아서 괜찮은 속도로 돌고, 마침내 llama.cpp가 공식 지원하는 내장 MTP 덕분에 특히 그렇고, 많은 작업부하와 내가 던져본 모든 벤치마크에서 원래 이겨서는 안 될 모델들과 맞먹거나 앞섬  
  며칠 전 인터넷이 끊긴 상태로 일어나서 pi에서 27B를 띄우고, 라우터 비밀번호를 주며 무엇이 문제인지 진단하라고 했음. 커피를 가져오고 돌아오니 진행 방법 제안이 포함된 전체 보고서가 나와 있었음. OpenRouter를 좋아하고 여러 용도로 쓰지만, 더 싸지는 않음  
  물론 이 모든 모델을 써본 개인 경험에 기반한 주관이 섞여 있음. 31B Gemma가 앞서는 경우도 있겠지만, 나는 찾지 못했고 언급한 4개 모델을 각각 공개된 지 몇 시간 뒤부터 여러 작업에 계속 돌려왔음. 심지어 내 hermes에서는 gemma 4 26B에서 qwen3.5 9B로 바꾸자 결과가 더 좋아졌고, 대폭 개선된 3.6 계열도 아니었음. 이런 분석을 하면서 현재 소비자 하드웨어 기준 최첨단으로 여겨지는 모델을 쓰지 않는 건 낡았거나 체리픽처럼 느껴짐
  * 맞음. Qwen 3.6 45b(6 parameter)는 일반적인 **RTX 5090**에서 돌아가고, 게임을 좋아한다면 이미 갖고 있을 가능성도 큼. 대부분의 코드 생성 작업에 충분히 쓸 만함  
    마찬가지로 DeepSeek V4 Flash도 로컬 모델로 꽤 접근 가능하고, DwarfStar 4를 쓰면 96GB MacBook에서 쉽게 돌릴 수 있음  
    추론 비용을 내는 것 자체가 문제는 아니지만, 로컬 모델은 완전 오프라인 사용, 개인식별정보나 법률상 비밀 특권이 있는 데이터 처리, 과금 초과를 전혀 신경 쓰지 않는 작업 같은 꽤 놀라운 가능성을 열어줌  
    또 하나는 서비스 중단이나 종료를 걱정하지 않고 100% 계속 운영할 수 있다고 확신하는 서비스를 만들 수 있다는 점임. 프런티어 모델에는 현재 이 문제가 있음. 내 로컬 Qwen 구성은 완전히 예측 가능하고, 돌릴 하드웨어만 계속 구할 수 있으면 계속 실행 가능함  
    합리적인 전략은 둘 다 쓰는 것임. 로컬 추론 도구를 갖추고, 저가와 고가 클라우드 모델을 함께 쓰면 됨. GPT-5.5와 Opus-4.7은 까다로운 추론 작업처럼 잘하는 일에 쓰고, 후자는 Claude 구독으로 우회해 더 싸게 쓰며, 약간 덜 까다로운 작업에는 DeepSeek V4 Pro, 대부분의 코드 생성에는 V4 Flash, 로컬 모델이 필요한 일에는 로컬 모델을 쓰면 됨
  * 주장 자체에는 동의하지만, qwen3.6 27B 가격을 그렇게 읽는 게 맞는지는 모르겠음  
    그 제공자들은 Alibaba의 27B Dense 1차 가격을 따라가는 것 같고, 개인적으로는 좀 비싸다고 봄. Qwen 모델이 프런티어 모델이나 Gemma에 비해 **추론 효율**이 낮고, 긴 시퀀스 길이를 제공하는 비용이 비싸서 그럴 수도 있음
  * 양자화된 모델들을 서로 어떻게 평가하는지 궁금함. 마음에 드는 벤치마크를 아직 못 찾았음  
    27B로 디버깅한 예시는 좋음. 메모리가 4배인 Mac을 산 뒤 비슷한 성공을 봤고, Qwen 35B A3B가 갑자기 매우 잘해줬음. 노트북의 9B는 좋다고 말하기 어려웠음

* 여기에는 원글 분석의 문제를 다루는 댓글이 많지만, 더 넓은 결론에 대해서는 상당수가 “차이 없는 구분”에 가깝다고 봄. 프라이버시를 제외하고 순수하게 **비용과 성능**만 보면, 개인 개발자는 직접 호스팅하기보다 호스팅된 서비스를 쓰는 편이 낫다  
  업무에서는 고용주가 토큰 비용을 내고, 일 밖에서는 대부분의 개발자가 선호 제공자의 $20/$100/$200 월 구독으로 충분하다고 느낀다. 순수한 비용 대비 성능 관점에서 로컬 모델 실행이 맞는 조건에 들어가는 개발자는 많지 않음  
  더 중요하게는, 실제로 로컬 모델을 세팅하는 일은 비용 절감이나 생산성 향상보다는 취미, 학습, 또는 **프라이버시 통제**에 더 가까워 보임
  * 모델 제작자들이 꿈꾸는 **메인프레임식 컴퓨팅**은 OpenAI, Google, Anthropic, Microsoft가 무엇을 원하든 돌아오지 않을 것임. 문 앞에는 들어오고 싶어 하는 똑똑한 기술 야만인들이 너무 많고, 이들은 컴퓨터 터미널 시대로 돌아가는 데 만족하지 않을 것임  
    개인용 컴퓨터가 이전의 터미널 시대를 끝냈고, 그 회사들 대부분은 사라졌으며 IBM과 몇몇 잔존 기업만 남았지만 예전의 그림자에 불과함

* 글쓴이는 출력 토큰 비용만 비교했지만, 일반적인 **에이전트형 작업부하**에서는 입력 토큰이 비용의 큰 부분을 차지함. 로컬 추론에서는 1차적으로 입력 토큰이 무료임  
  더 긴 첫 토큰 대기 시간, 더 높은 전력 사용량, 더 낮은 출력 토큰 속도 같은 암묵적 비용만 생김
  * 맞음, 그 점이 글쓴이의 요지를 완전히 무너뜨림  
    내 OpenRouter 활동에서 임의의 에이전트 세션 몇 개를 봤더니 입력 비용이 출력 비용의 10배였음. OpenRouter의 프롬프트 캐싱은 복잡하고 신뢰하기 어렵지만, 로컬 하드웨어의 llama-cpp에서는 대부분 공짜에 가까움
  * 로컬 설정의 더 나은 캐싱을 무시하더라도, Mac 하드웨어는 입력 토큰을 출력 토큰보다 대략 **10배 빠르게 처리**하는 경우가 많음. OpenRouter는 같은 모델에서 차이가 2배 정도로 보임

* 똑똑하게 하면 그렇지 않음. MacBook M5 Max 128GB는 6천 달러짜리 프리미엄 노트북이지만, 많은 일을 할 수 있고 하루 종일 쓰는 좋은 메인 머신이 됨  
  거기에 더해 DeepSeek V4 Flash를 돌려서, 검열이나 제한 없이, 인터넷 연결 없이도, 매우 민감한 개인정보 데이터로, 사소하지 않은 작업을 로컬에서 처리할 수 있음. 이건 좋은 거래임. OpenAI와 그 회사들을 버리려고 2만5천 달러짜리 듀얼 Mac Studio 512GB를 사면 성능과 비용 양쪽에서 실망할 것임
  * 똑똑한 선택은 약 **48GB MacBook**을 일상용으로 사고, AI 구독이나 토큰에 연간 약 $800을 예산으로 잡는 것임. 그러면 결국 같은 가격대가 됨  
    블로그 글쓴이로서, 이 글은 MacBook M5 Max 128GB에서 쓰고 있음
  * 내 M4 Max 128GB는 결국 꽤 합리적인 선택이 됐음. 영상 편집, 머신러닝 모델 학습, 큰 공개 AI 모델 실행, 3D 모델링, 렌더링, CAD 작업을 함  
    이 모든 걸 100% 내내 하지는 않음. 밤새 머신러닝 학습을 돌리고 아침에 결과를 확인하며, 업무 중에는 서버처럼 띄워 로컬 모델을 돌리고, 개인 시간에는 영상 편집과 3D 모델링을 함. 엄청나게 다재다능한 기계이고, 이 모든 것이 데이터를 기기 안에 두고 워크플로를 완전히 통제한 채 이뤄짐
  * HN 사람들에게는 비밀이지만, 이런 모델 중 일부는 **$200짜리 rpi5**나 $500짜리 AMD 미니 PC에서도 돌릴 수 있음  
    또 다른 공공연한 비밀은 몇몇 회사가 Gemini 3.1이나 GLM 4.6 같은 꽤 괜찮은 모델로 수만 토큰을 무료 제공한다는 점임

* 원글은 여기저기서 Gemma와 비교해놓고 결론은 Anthropic에 돈 내는 게 더 낫다고 함. Anthropic은 출력 토큰 백만 개당 $15로, OpenRouter 기준으로도 **30~35배 비쌈**  
  이건 집의 전기자전거와 전기자전거 대여를 비교한 뒤, 비슷한 속도로 갈 수 있으니 Toyota를 빌려야 한다고 결론 내리는 것과 같음. 나쁜 글이 많은 관심을 받는 데 지침

* 글은 마지막 부분에서 큰 실수를 해서 심각하게 틀렸음. 생성된 토큰만 보고 그게 비용이라고 할 수 없음. **에이전트형 코딩**에서는 턴이 많아서 출력 토큰뿐 아니라 매번 보내는 모든 입력 토큰 비용도 냄. 캐시되면 10배 정도 싸다 해도 마찬가지임. 그래서 이 계산은 API 비용을 전혀 정확히 나타내지 않음  
  두 번째로, 에이전트 팀을 쓰면 로컬 토큰 생성량을 크게 올릴 수 있음. 단일 대화는 메모리 대역폭에 묶여서 연산 자원을 완전히 쓰지 못함. 여러 에이전트의 토큰을 일괄 처리할 수 있으면 토큰 생성량을 쉽게 5배로 늘릴 수 있음

* 클라우드 AI로는 도저히 돌아갈 수 없음. 내게는 속도나 최첨단 모델보다 **프라이버시와 완전한 통제권**이 더 중요함
  * 예측 가능성, 회복력, 주권도 있음. 다른 사람들의 장애, 예상치 못한 수요가 불편한 시점에 나에게 영향을 주는 일, 누군가 내 모델을 약화시키는 일, 비용이 예측 불가능하게 바뀌는 일, 예상 못 한 오류로 큰 청구서가 나오는 일을 걱정하지 않아도 됨  
    내게는 **옥상 태양광**과 같은 범주임. 인프라 통제와 의존성 감소에서 마음의 평화를 얻는 유형이라면, 엄격한 경제성이 꼭 맞아야 할 필요는 없음