# DeepSeek V4–프런티어에 거의 근접했고 가격은 일부 수준

> Clean Markdown view of GeekNews topic #29099. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29099](https://news.hada.io/topic?id=29099)
- GeekNews Markdown: [https://news.hada.io/topic/29099.md](https://news.hada.io/topic/29099.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-03T02:34:02+09:00
- Updated: 2026-05-03T02:34:02+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2026/Apr/24/deepseek-v4/)
- Points: 1
- Comments: 1

## Topic Body

- DeepSeek가 V4 시리즈 첫 모델로 **DeepSeek-V4-Pro**와 **DeepSeek-V4-Flash** 프리뷰 모델을 공개했으며, 두 모델 모두 100만 토큰 컨텍스트를 지원하는 Mixture of Experts 모델이고 MIT 라이선스로 제공됨
- **DeepSeek-V4-Pro**는 총 1.6T 파라미터와 활성 49B 파라미터를 갖춘 모델로, Kimi K2.6, GLM-5.1, DeepSeek V3.2보다 큰 새 최대 오픈 가중치 모델로 보임
- DeepSeek V4의 핵심 차별점은 **가격**으로, Flash는 입력 100만 토큰당 $0.14·출력 $0.28, Pro는 입력 $1.74·출력 $3.48로 비교 대상 소형·대형 모델보다 낮게 책정됨
- 낮은 가격은 **긴 컨텍스트 효율화**와 연결되며, 100만 토큰 컨텍스트에서 Pro는 DeepSeek-V3.2 대비 단일 토큰 FLOPs 27%·KV 캐시 10%, Flash는 FLOPs 10%·KV 캐시 7% 수준까지 낮아짐
- 자체 벤치마크에서 DeepSeek-V4-Pro는 프런티어 모델과 경쟁 가능하지만 GPT-5.4와 Gemini-3.1-Pro보다는 약간 낮고, 최첨단 프런티어 모델보다 약 **3~6개월** 뒤처진 개발 궤적을 보임

---

### 모델 공개와 기본 사양
- DeepSeek가 2025년 12월 [V3.2와 V3.2 Speciale](https://simonwillison.net/2025/Dec/1/deepseek-v32/) 이후 V4 시리즈의 첫 모델로 [DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)와 [DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash) **프리뷰 모델** 2종을 공개함
- 두 모델 모두 **100만 토큰 컨텍스트**를 지원하는 Mixture of Experts 모델이며, 표준 MIT 라이선스를 사용함
- DeepSeek-V4-Pro는 총 **1.6T 파라미터**와 활성 49B 파라미터를 갖춘 모델이고, DeepSeek-V4-Flash는 총 284B 파라미터와 활성 13B 파라미터를 갖춘 모델임
- DeepSeek-V4-Pro는 Kimi K2.6의 1.1T, GLM-5.1의 754B, DeepSeek V3.2의 685B보다 커서 새 최대 오픈 가중치 모델로 보임
- Hugging Face 기준 모델 크기는 Pro가 **865GB**, Flash가 **160GB**이며, 가볍게 양자화된 Flash는 128GB M5 MacBook Pro에서 실행될 수 있을 것으로 기대됨
- Pro 모델도 필요한 활성 전문가(expert)만 디스크에서 스트리밍할 수 있다면 같은 머신에서 실행될 가능성이 있음
- ## OpenRouter를 통한 간단한 테스트
  - [OpenRouter](https://openrouter.ai/)와 [llm-openrouter](https://github.com/simonw/llm-openrouter)를 사용해 다음 명령으로 모델을 호출함
  - ```bash
    llm install llm-openrouter
    llm openrouter refresh
    llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
    ```
  - 생성 결과로 [DeepSeek-V4-Flash의 펠리컨 SVG](https://gist.github.com/simonw/4a7a9e75b666a58a0cf81495acddf529)와 [DeepSeek-V4-Pro의 펠리컨 SVG](https://gist.github.com/simonw/9e8dfed68933ab752c9cf27a03250a7c)가 공개됨
  - 비교 대상으로 [2025년 12월 DeepSeek V3.2](https://simonwillison.net/2025/Dec/1/deepseek-v32/), [2025년 8월 V3.1](https://simonwillison.net/2025/Aug/22/deepseek-31/), [2025년 3월 V3-0324](https://simonwillison.net/2025/Mar/24/deepseek/)의 같은 프롬프트 결과가 함께 제시됨

# 가격, 효율, 성능 위치
- DeepSeek V4에서 가장 두드러지는 요소는 **가격**이며, [DeepSeek 가격 페이지](https://api-docs.deepseek.com/quick_start/pricing) 기준 Flash는 입력 100만 토큰당 $0.14, 출력 100만 토큰당 $0.28임
- Pro는 입력 100만 토큰당 **$1.74**, 출력 100만 토큰당 **$3.48**로 책정됨
- 비교 표에서 DeepSeek V4 Flash는 GPT-5.4 Nano의 입력 $0.20·출력 $1.25, Gemini 3.1 Flash-Lite의 입력 $0.25·출력 $1.50보다 낮아 소형 모델 중 가장 저렴함
- DeepSeek V4 Pro는 Gemini 3.1 Pro의 입력 $2·출력 $12, GPT-5.4의 입력 $2.50·출력 $15, Claude Sonnet 4.6의 입력 $3·출력 $15, Claude Opus 4.7의 입력 $5·출력 $25, GPT-5.5의 입력 $5·출력 $30보다 낮아 대형 프런티어 모델 중 가장 저렴함
- ## 효율화가 낮은 가격을 뒷받침함
  - [DeepSeek 논문](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash/blob/main/DeepSeek_V4.pdf)은 이번 릴리스에서 긴 컨텍스트 프롬프트 효율에 크게 집중했다고 밝힘
  - 100만 토큰 컨텍스트에서 DeepSeek-V4-Pro는 DeepSeek-V3.2 대비 단일 토큰 FLOPs가 **27%**, KV 캐시 크기가 **10%** 에 그침
  - 같은 조건에서 DeepSeek-V4-Flash는 DeepSeek-V3.2 대비 단일 토큰 FLOPs가 **10%**, KV 캐시 크기가 **7%** 까지 낮아짐
- ## 벤치마크상 프런티어에 근접하지만 최상위에는 뒤처짐
  - DeepSeek의 [자체 보고 벤치마크](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash/blob/main/DeepSeek_V4.pdf)는 Pro 모델이 다른 프런티어 모델과 경쟁 가능하다는 결과를 제시함
  - 논문에 따르면 추론 토큰 확장을 적용한 DeepSeek-V4-Pro-Max는 표준 추론 벤치마크에서 GPT-5.2와 Gemini-3.0-Pro보다 높은 성능을 보임
  - 다만 GPT-5.4와 Gemini-3.1-Pro보다는 약간 낮으며, 최첨단 프런티어 모델보다 약 **3~6개월** 뒤처진 개발 궤적을 보임
  - [huggingface.co/unsloth/models](https://huggingface.co/unsloth/models)에서 Unsloth의 양자화 버전 공개가 기대되며, Flash 모델이 로컬 머신에서 얼마나 잘 실행될지가 관심사로 남음

## Comments



### Comment 56710

- Author: neo
- Created: 2026-05-03T02:34:03+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47977026) 
- 내게 가장 큰 차별점은 **DeepSeek가 그냥 시킨 일을 한다**는 것임. 최근 역공학 용도로 GPT와 Claude를 둘 다 써봤는데 둘 다 거부했고, OpenAI 계정에는 경고까지 받았음
  - 안타깝게도 **환각 수준**이 터무니없이 높아서, 대형 언어 모델의 최악의 면이 드러남  
    Deepseek v4 pro 94%  
    Deepseek v4 flash - 96%  
    [https://artificialanalysis.ai/evaluations/omniscience?models...](<https://artificialanalysis.ai/evaluations/omniscience?models=gemini-3-1-pro-preview%2Cgpt-5-5%2Cgrok-4-3%2Cclaude-sonnet-4-6-adaptive%2Cgemini-3-flash-reasoning%2Cqwen3-6-max%2Ckimi-k2-6%2Cgpt-5-4%2Cmimo-v2-5-pro%2Cglm-5-1%2Cminimax-m2-7%2Cclaude-4-5-haiku-reasoning%2Cdeepseek-v4-pro%2Cgpt-5-4-mini%2Cdeepseek-v3-2-reasoning%2Cdeepseek-v4-flash%2Cqwen3-5-397b-a17b%2Cmistral-small-4%2Cnvidia-nemotron-3-super-120b-a12b%2Cnova-2-0-pro-reasoning-medium%2Cgpt-oss-120b%2Cgpt-oss-20b#omniscience-hallucination-rate-tabs>)
  - 내 경험으로는 **IDA Pro와 GLM 5.1**을 같이 쓸 때 훌륭했고, DeepSeek v4 pro가 근소하게 2위였으며 Kimi는 그냥 거부함. Claude는 영웅/구원자 모드 같은 걸로 몰아넣은 뒤 점진적으로 레드팀 쪽으로 틀어야 역공학을 할 수 있지만, 쉽게 걸려 넘어짐
  - 회사에 enterprise Cursor 계정이 있어서 주류 모델을 다 시험해볼 수 있음. 당연히 소스가 있는 우리 코드에서 Composer 2를 써서 문제를 조사하던 중 **라이선스 체크를 우회하는 디버그 플래그**를 켜 달라고 했는데도 못 하게 하더라  
    정말 화났고, 옛날 SpongeBob의 Patrick 밈 같았음. 왜 모델을 법 집행관으로 만들려는지 모르겠음. 불법인 일은 여전히 불법이고 범죄를 다루는 전문가도 있음. Google이 진실과 정의의 중재자가 될 필요는 없음. 법 집행기관도 책임을 묻기 이미 어려운데, 적어도 그들은 우리를 위해 일함
  - “OpenAI 계정에 경고까지 받았다”는 부분은, **소프트웨어가 사용자에게 결과를 들먹이며 위협하는 것**이라 완전히 이상하고 디스토피아적임  
    개발자 동료들, 우리가 어떤 세상을 만든 건가? 이건 미친 짓임. 망치가 “나사에는 쓰지 말고 못에만 써. 또 그러면 자폭할 거야”라고 말한다고 상상해보면 됨. 이런 소프트웨어 좀 그만 만들었으면 함
  - “OpenAI 계정에 경고까지 받았다”는 게 꽤 자주 무섭게 느껴짐. 팔로워가 없는 평범한 사람에게는 실질적인 구제 절차도 없고, 기본적인 도구에서 배제될 가능성이 있음  
    OpenAI가 회사 20개를 인수한 뒤, 예전에 흐릿한 선을 한 번 넘었다는 이유만으로 Figma, Next 같은 걸 못 쓰게 된다고 상상해보면 됨. OpenAI만이 아니라 전체 생태계가 너무 읽기 어려움  
    Gemini에게 Catch-22의 한 인용문에 대해 물었는데, 폭력적이거나 성적인 내용이 없었는데도 스트리밍 중간에 계속 멈추며 말할 수 없다고 했음. 책에는 그런 내용이 있긴 하지만, 그 이유만으로 전체 workspace 계정이 감점될 수도 있겠다는 생각이 듦  
    이상적으로는 미래가 로컬이어야 한다는 건 알지만, 앞으로 몇 년 동안 실질 비용과 전력 사용량을 생각하면 대부분에게 얼마나 현실적인지 모르겠음. 그 생태계에 있다면 M* 프로세서 정도가 예외일 듯함

- DeepSeek v4 Pro는 성격 면에서 **Claude Opus 4.6**처럼 느껴졌고, 비용 면에서는 인상적이었음  
  꽤 큰 TypeScript 코드베이스에서 단일 엔드포인트만 집중해서 API, DTO, 서비스, 데이터베이스 모델을 계층별로 깊게 살펴보고, 관련 타입을 완전히 파악하며 임시 타입이 생기지 않게 해달라고 했음  
  도입되는 타입과 그중 어떤 것이 반환되는지 등을 아주 짧지만 핵심적으로 요약해줬고, 그다음 전체를 단순화해달라고 요청했음  
  두 프롬프트 모두 많은 파일을 훑었을 텐데 Pro 버전 총 비용은 **$0.09**였음. Claude Opus라면 가격 인상 전 경험 기준으로도 이 두 프롬프트만 $9~$13 정도는 쉽게 태웠을 것이고, 이득은 크지 않았을 듯함  
  참고로 OpenRouter가 아니라 DeepSeek API를 직접 썼음. OpenRouter 자체가 DeepSeek 쪽에서 속도 제한을 받고 있었기 때문임
  - 나도 같은 경험을 하고 있음. “이 모듈 전체를 훑고 내 선호 스타일 가이드에 꼼꼼히 정확히 맞춰라” 같은 작업은 최전선 모델에 몇 달러씩 쓰기 아까웠음. **DeepSeek Flash**를 멍청하고 불필요하거나 매우 투기적인 작업에 비용 걱정 없이 던질 수 있어서 좋음
  - 비효율의 상당 부분은 모델이 계속 무작위로 여기저기 찔러보고 grep을 해대는 데서 오는데, 이건 **하네스의 문제**라고 봄  
    그래서 tree-sitter로 코드를 그래프로 파싱하고, 모델이 “이 함수와 연결된 모든 함수는 뭐야?” 같은 질문을 할 수 있게 Prolog 기반 MCP를 만들었음. 특정 엔드포인트가 뭘 하는지 보려면 호출 하위 그래프 전체를 사소하고 예측 가능하게 추적할 수 있음  
    [https://github.com/yogthos/chiasmus](<https://github.com/yogthos/chiasmus>)
  - “별 이득 없이 $9~$13 정도를 태웠을 것”이라는 게 **9센트짜리 DeepSeek v4 Pro**와 비교해 이득이 크지 않다는 뜻인지, 아니면 둘 다 별 이득이 없었다는 뜻인지 궁금함
  - 75% 할인 청구 중이라는 점을 감안해도 여전히 훨씬 저렴함
  - 어떻게 썼는지 궁금함. OpenRouter를 썼는지, 아니면 제공자 API를 직접 썼는지?

- 관련해서, **128GB MacBook**에서 DeepSeek v4 Flash를 실행하는 라이브 데모가 있음. 이탈리아어 영상이고 영어 자막이 있음  
  [https://www.youtube.com/watch?v=todMmp6AGCE](<https://www.youtube.com/watch?v=todMmp6AGCE>)

- vscode copilot에 연결해서 flash와 pro를 둘 다 써봤음. 작은 개념 증명에는 **flash**로 충분했고 꽤 빨랐으며 정말 저렴했음  
  몇 번 멈추긴 했는데 지연 문제일 수도 있고, 그래도 결과는 좋았음. pro는 무거운 작업과 계획 수립 등에 썼고 훌륭하게 해냈음  
  작은 개념 증명 하나에 약 10센트를 냈고, 프롬프트한 대로 정확히 동작했음. 내게는 이달 말 GitHub Copilot을 해지한 뒤의 진짜 대안임

- 비용이 최전선 모델보다 낮긴 하지만, **DS4 Pro와 K2.6**이 겉보기만큼 싸지 않게 만드는 요소가 두 가지 있음  
  DS4 Pro는 공식 API에 할인이 걸려 있는데, 이게 논의에서 종종 간과되거나 섞임. Simon은 비교에서 정가를 썼으니 여기서는 문제 없음  
  다른 문제는 DS4 Pro와 K2.6이 최전선 모델보다 추론 토큰을 훨씬 많이 쓰는 경우가 많다는 점임. 내 테스트에서는 병적인 일부 사례에서 토큰을 너무 많이 써서 요청 비용이 최전선 모델과 같아질 수 있었음. 공정하게 말하면 DS와 Kimi를 제3자 제공자로 쓰고 있어서 그쪽 설정 문제일 수도 있음  
  하지만 Artificial Analysis 모델 페이지를 보면 지능 벤치마크에서 DSv4 Pro는 190M 토큰, K2.6은 170M 토큰을 쓴 반면 GPT 5.5 high는 45M만 썼음  
  “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, UI에서는 “Intelligence vs Cost”를 보는 걸 추천함. 오픈 소스 모델이 여전히 더 싸긴 하지만, 토큰 가격만 봤을 때 기대하는 만큼은 아님  
  [0] [https://artificialanalysis.ai/models/deepseek-v4-pro](<https://artificialanalysis.ai/models/deepseek-v4-pro>)  
  [1] [https://artificialanalysis.ai/models/kimi-k2-6](<https://artificialanalysis.ai/models/kimi-k2-6>)  
  [2] [https://artificialanalysis.ai/models/gpt-5-5-high](<https://artificialanalysis.ai/models/gpt-5-5-high>)
  - 이건 매우 틀렸고, DS4는 정말 저렴함. 먼저 릴리스 논문을 읽어보는 걸 권함  
    [https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...](<https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf>)  
    긴 문맥 효율과 어텐션을 개선하는 꽤 새로운 방법인 **HCA와 mCH**를 도입했음. v3.2 대비 추론에는 27%의 FLOP만, KV 캐시에는 10%만 필요함. 같은 연산 자원으로 3배 넘게 더 서빙할 수 있고, 이전 KV 캐시의 30%만 있으면 된다는 뜻임  
    게다가 이번 릴리스는 PREVIEW임. DeepSeek는 진짜 공개 연구소이고, 매 릴리스마다 꽤 많은 걸 만들어낼 뿐 아니라 공개하고 공유함. 나는 이걸 로컬에서 돌리고 있음  
    얼마나 “싼지” 말해보자면, v3.2에서는 256k 문맥에서 GPU 메모리가 부족해 시스템 메모리로 넘쳤고, 그래도 초당 7천 토큰 정도라 만족했음. 이번에는 **100만 토큰 전체 문맥**을 GPU 메모리 안에 100% 넣고, 2배 이상 빠르게 돌리면서 결과도 더 좋음  
    이건 정말 저렴함. Moonshot은 GPU가 부족하다는 걸 분명히 했고 그래서 그런 것임. 미국처럼 GPU 용량이 있고 여기처럼 모델을 보조했다면 공짜로 뿌렸을 것임
  - 그런 일이 생길 수는 있겠지만 내 경험은 아니었음. 하루 종일 꽤 큰 리팩터링, 여러 차례 왕복 대화, 수천 줄 코드 변경, 리뷰, 조사, 여러 하위 에이전트의 병렬 작업까지 다 했는데 **총 비용이 $0.95**였음  
    예전에 Opus 4.6으로 이걸 시도했을 때는 첫 프롬프트에서 돌아오기도 전에 내가 걸어둔 $10 예산을 다 태웠음  
    설령 크게 할인된 가격이라 해도, 완전한 해결책에 한 자릿수 달러가 들었을 것이고, Opus는 정확히 아무것도 얻지 못한 채 두 자릿수 달러가 들었을 것임
  - Artificial Analysis에 따르면 **Grok 4.3**은 DS4보다 더 빠르고, 더 똑똑하고, 더 싸고, 토큰도 더 적게 씀. 그런데 왜 Grok 이야기는 안 하는 걸까?  
    1. [https://artificialanalysis.ai/models/grok-4-3](<https://artificialanalysis.ai/models/grok-4-3>)

- V4는 우리의 **다국어 벤치마크**에서 V3.2보다 확실히 한 단계 올라섰음  
  단, 두 가지 주의점이 있음. OpenRouter를 통해 추론할 때는 속도(TPS)가 매우 느리고 가끔 불안정한 문제가 많았음. 방금 확인해도 이용 가능한 모든 제공자에서 10~30 TPS라서, DeepSeek처럼 생각을 많이 하는 모델에는 높지 않음  
  공식 DeepSeek API는 유료 사용자에게도 데이터 프라이버시를 보장하지 않음  
  Azure AI Foundry를 통해 쓰면 두 가지 모두 문제가 아닐 수도 있음. 후자는 내가 알기로는 그렇고, 아직 테스트해보지는 못했음  
  어쨌든 최신 최고 수준 모델과 어느 정도 경쟁하는 **오픈 가중치 모델**이 더 나오는 건 반가움

- DeepSeek 공식 API는 같은 코드베이스에서 긴 세션으로 계속 쓰면 **캐시 적중률이 99% 이상**이라서 최전선 모델보다 훨씬 저렴함. claude code에서 200M 토큰 세션 예시가 있음
  - 어리석은 질문일 수도 있지만, 새 세션에서 캐시에 맞는 올바른 접두사를 보장하려면 파일을 같은 순서로 읽어야 하나?

- 사람들이 특히 모델 개발자 API를 직접 쓸 때, 이런 모델이 **자기 데이터로 공개적으로 학습한다**는 점을 전혀 신경 쓰지 않는 게 놀라움  
  “GitHub가 이제 모두의 코드를 모델 학습에 자동 옵트인한다” 같은 일에는 정당하게 화난 댓글이 수백 개 달리는데, OpenRouter를 통해 중국 모델을 쓰는 얘기에서는 이런 점이 더는 거의 나오지 않음. “서로 다른 사람들이다”로 설명할 수도 있지만, 차이가 너무 극명해서 그게 전부라고 보긴 어려움
  - 오픈 가중치 모델의 좋은 점은 원 모델 제작자에게 데이터를 보내지 않는 **대체 제공자**를 자유롭게 쓸 수 있다는 것임. 예를 들어 OpenRouter에는 DeepSeek V4 Pro용 대체 제공자가 6개 보임
  - 개인적으로는 모델을 공개하고 닫아두지 않는 한 그들을 돕는 데 괜찮음. 그리고 제공자가 학습에 쓰지 않겠다고 하는 설정도 믿지 않음
  - 대부분의 오픈 가중치 모델은 **데이터 보존 없음과 학습 없음**을 제공하는 공급자를 쓸 수 있음. 예로 OpenRouter와 OpenCode Go/Zen을 보면 됨  
    이게 오픈 가중치의 큰 장점 중 하나임. 중국도 미국도 내 데이터를 가져가지 않음
  - 그들이 공짜로 나눠주고 API도 매우 괜찮은 가격에 제공하기 때문임. 이해하기 어렵지 않음. Robin Hood가 우리 데이터 세금을 훔쳐서 되돌려주는 느낌이 떠오름
  - 내 오픈 소스 코드로 학습하는 건 괜찮음. 코드가 꽤 별로긴 하지만 핵심은 아니고, 어쨌든 서비스를 무료로 제공하니까. 하지만 **enterprise 비용을 냈는데도 학습에 쓴다면** 정말 화날 것임. 대다수 프로그래머도 이렇게 생각할 것 같음

- 보조금 서커스가 끝나고 모두가 순수 사용량 기반으로 가더라도, 월 **$200 예산**이 없는 평범한 사람들에게 완전히 배타적이진 않겠다는 희망이 생김
  - 오늘 대비 가격 대비 성능비가 갑자기 치솟는 대규모 뒤통수는 없을 거라고 낙관하는 이유가 두 가지 있음  
    하나는 더 작은 모델에 더 많은 지능을 욱여넣는 방법을 계속 찾아내고 있어서, 같은 하드웨어 사양이 시간이 지날수록 더 많은 모델 능력을 제공한다는 점임  
    다른 하나는 하드웨어가 계속 개선되고 공급이 수요를 따라잡아서, 1달러로 살 수 있는 하드웨어 사양이 시간이 지날수록 좋아진다는 점임  
    언젠가는 지금의 “제공자 API로 AI에 접근하는” 모델을, 지금 우리가 “모두가 회사 메인프레임에 접속하던” 시절을 돌아보듯 보게 되길 바람
  - 먼지가 가라앉을 때쯤이면 개인용 대화형 사용이 **$200 미만**으로는 불가능해져도 놀랍지 않음. 이런 것들의 서빙 비용을 내가 모델링해봐도, 공개 보고와 잘 맞지 않음. 더 비관적인 사례들조차도 그렇음

- 지난 며칠간 v4 pro를 써봤는데, 품질 면에서는 대체로 **OpenAI 5.4나 Opus 4.6**과 비슷해 보임. 4.7은 안 써봤음  
  분명히 하자면 최첨단 작업을 하는 건 아님. 주로 프론트엔드 개발에 썼고, 내가 그쪽을 잘 못해서 그럴듯한 프로토타입만 필요했음  
  내 목적에는 완전히 괜찮은 모델이고 가격도 적당함. 다만 로컬에서 돌릴 수 있을 만큼 작은 오픈 모델이 나오기를 정말 기다리고 있음. 남의 머신에 의존해야 하고, 그 과정에서 내 데이터가 다 빠져나가는 게 싫음
  - Tinfoil로 추론을 쓰면 클라우드에서 모델을 쓰면서도 로컬 실행과 비슷한 프라이버시를 얻을 수 있음: [https://tinfoil.sh/inference](<https://tinfoil.sh/inference>)  
    참고로 나는 공동창업자임. 이 방식은 보안 엔클레이브 안에서 모델을 실행하고, 엔클레이브 안에서 도는 오픈 소스 코드가 런타임 증명과 일치하는지 검증함. NVIDIA confidential computing을 사용함  
    문서에는 검증 과정이 설명되어 있음: [https://docs.tinfoil.sh/verification/verification-in-tinfoil](<https://docs.tinfoil.sh/verification/verification-in-tinfoil>)
  - 써본 경험을 공유해줘서 고맙고, 나도 시도해보려는 중임. 추론에는 어떤 제공자를 쓰고 있음? Opencode인지 DeepSeek API인지 궁금함
