DeepSeek이 V4 Pro 가격 할인을 영구화함
(api-docs.deepseek.com)- DeepSeek-V4-Pro API 가격은 75% 할인 프로모션 종료 뒤에도 공식적으로 기존 가격의 1/4 수준으로 유지됨
- 과금은 100만 토큰당 가격을 기준으로 하며, 입력 토큰과 출력 토큰 사용량에 따라 잔액에서 직접 차감됨
- 지원 모델은 DeepSeek-V4-Flash와 DeepSeek-V4-Pro이며, 둘 다 비사고 모드와 사고 모드를 지원하고 기본값은 사고 모드임
- 두 모델 모두 컨텍스트 길이는 1M, 최대 출력은 384K이며, 동시성 제한은 Flash 2500, Pro 500으로 다름
- 모든 모델의 입력 캐시 적중 가격은 출시 가격의 1/10로 낮아졌고, 조정은 2026년 4월 26일 12:15 UTC부터 적용됨
과금 기준
- 가격 단위는 100만 토큰당 요금이며, 토큰은 모델이 인식하는 가장 작은 텍스트 단위로 단어, 숫자, 문장부호가 될 수 있음
- 청구 기준은 모델의 입력 토큰과 출력 토큰 총량임
- 비용은
토큰 수 × 가격으로 계산되며, 충전 잔액 또는 지급 잔액에서 직접 차감됨 - 충전 잔액과 지급 잔액이 모두 있으면 지급 잔액이 먼저 사용됨
- 제품 가격은 변동될 수 있으며, DeepSeek은 가격 조정 권리를 보유함
- 실제 사용량에 맞춰 충전하고, 최신 가격은 해당 페이지에서 정기적으로 확인하는 방식이 권장됨
모델과 가격
-
지원 모델
- DeepSeek-V4-Flash와 DeepSeek-V4-Pro가 제공됨
- 두 모델 모두 비사고 모드와 사고 모드를 지원하며, 기본값은 사고 모드임
deepseek-chat과deepseek-reasoner모델명은 향후 폐기될 예정임- 호환성을 위해
deepseek-chat은deepseek-v4-flash의 비사고 모드에,deepseek-reasoner는deepseek-v4-flash의 사고 모드에 각각 대응함
-
엔드포인트와 기능
- Anthropic 형식 Base URL은 https://api.deepseek.com/anthropic임
- 사고 모드 전환 방법은 Thinking Mode에서 확인 가능함
- 관련 기능 문서로 Json Output, Tool Calls, Chat Prefix Completion(Beta), FIM Completion(Beta)가 제공됨
-
컨텍스트와 출력 한도
- 컨텍스트 길이는 1M임
- 최대 출력은 384K임
100만 토큰당 가격
| 항목 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| 입력 토큰, 캐시 적중 | $0.0028 | $0.003625 |
| 입력 토큰, 캐시 미스 | $0.14 | $0.435 |
| 출력 토큰 | $0.28 | $0.87 |
| 동시성 제한 | 2500 | 500 |
-
DeepSeek-V4-Pro 할인 조정
- DeepSeek-V4-Pro 가격은 75% 할인 가격으로 표시됨
- 캐시 적중 입력 토큰 가격은 기존 $0.0145에서 $0.003625로 낮아짐
- 캐시 미스 입력 토큰 가격은 기존 $1.74에서 $0.435로 낮아짐
- 출력 토큰 가격은 기존 $3.48에서 $0.87로 낮아짐
- 75% 할인 프로모션이 2026년 5월 31일 15:59 UTC에 종료된 뒤에도 DeepSeek-V4-Pro API 가격은 공식적으로 기존 가격의 1/4로 조정됨
-
캐시 적중 가격 인하
- 모든 모델의 입력 캐시 적중 가격은 출시 가격의 1/10로 인하됨
- 이 가격 조정은 2026년 4월 26일 12:15 UTC부터 적용됨
-
동시성 제한
- DeepSeek-V4-Flash의 동시성 제한은 2500임
- DeepSeek-V4-Pro의 동시성 제한은 500임
- 동시성 제한의 자세한 내용은 Rate Limit & Isolation에서 확인 가능함
댓글과 토론
Hacker News 의견들
-
자체 코딩 에이전트를 내놓으면 DeepSeek 모델을 주력으로 쓰기 시작할지도 모르겠음
모델 오픈소스 공개, 연구 발표, 낮은 가격 유지처럼 “맞는 방향”의 일을 계속 하는 듯함-
Claude Code에서 V4 Pro를 쓸 수 있음 1
직접 써봤는데 인상적이었음 -
OpenCode와도 아주 잘 맞음
우리 팀은 다른 구독 서비스의 5시간 제한에 자주 걸리는데, DeepSeek을 백업으로 두니 꽤 좋음
50달러만 충전해뒀는데 영원히 안 줄어들 것 같은 느낌임아직 최첨단 모델을 완전히 대체할 정도는 아니지만, 백업으로는 확실히 훌륭함
-
굳이 DeepSeek이 코딩 에이전트까지 제공해야 할 필요가 있나 싶음
그냥 모델을 아무 기성 코딩 에이전트에 붙여 쓰면 됨
개인적으로는 Pi를 선호하지만, 각자 잘 맞는 걸 쓰면 됨 -
이번 주 초부터 내 코드베이스에서 중국 모델들을 테스트하기 시작했음
아직 대화형 코딩보다는 이슈 분류, 버그 자동 수정, 로그 분석 등을 봤고, DeepSeek, Kimi, GLM, Qwen, MiMO를 GPT-5.5 high와 비교했으며 전부 Pi 하네스에서 설치 없이 돌렸음지금까지는 Kimi와 MiMO가 가장 유망해 보임
엄밀하게 충분히 테스트한 건 아니지만, 실무의 일반적인 일상 작업에서는 이 모델들이 사람들이 생각하는 것만큼 뒤처져 있지 않을 수 있다는 첫인상임다만 “똑똑하게 일하기보다 열심히 일하는” 쪽에 가까워서, 비슷한 결과까지 더 느리게 도달하고 토큰도 더 많이 쓰지만 가격은 훨씬 낮음
-
코딩 에이전트는 모델 제공사와 어느 정도 독립적인 편이 좋겠음
제공사들이 품질, 기능, 가격을 너무 자주 바꾸기 때문에 그때마다 에이전트까지 갈아타고 싶지 않음상황이 좀 느려지고 안정화되길 기대하고 있음
지금 당장 그래야 한다는 뜻은 아니지만, 그런 시점이 오면 좋겠음
-
-
DeepSeek V4를 아직 안 써봤다면 놓치고 있는 게 큼
가격 때문에 믿기 어려울 정도로 좋음DeepSeek의 사고 연쇄는 읽어보면 정말 흥미로움
OpenCode에서는 보여주지 않지만 직접 읽어보면 이 모델이 얼마나 저평가됐는지 놀랄 수 있음내 모델 사용량은 아주 적지만, 모델을 오픈소스로 공개하는 데 대한 감사와 전반적인 사회적 선이라고 보는 방향에 대한 지지 표시로 DeepSeek에 정기적으로 직접 돈을 내고 있음
-
좋고 싸지만, 정치 이야기를 꺼내면 검열 규칙 같은 게 발동할 수 있음
사고 과정을 보다가 갑자기 전부 지우고 아무 설명 없이 다른 주제로 바꾸자고 제안함
뉴스 매체가 인민을 위해 봉사한다는 식의 일반론 메시지를 출력한 적도 있음둘 다 민감한 요청도, 불법적이거나 체제 전복적인 요청도 아니어서 놀랐음
하지만 조금이라도 정치적인 주제였고 그걸로 충분했음
서구의 검열은 보통 더 미묘해서, 오싹하면서도 묘하게 신선했음 -
맞음, 모델이 정말 좋음
회사에서는 Claude를 쓰고 개인적으로는 DeepSeek을 쓰는데, 나를 적극적으로 파산시키려 들지 않는 유일한 모델임 -
특정 작업에는 V4 Pro를 좋아하지만, 코딩에서는 V4 Flash가 꽤 인상적이었음
간결하고 핵심을 잘 짚으며 실수가 적은 편이고 꽤 빠름 -
opencode CLI에서는 추론 흔적이 보임
설정 문제일 수도 있음 -
opencode에서 추론 표시를 켜고 끌 수 있음
-
-
이 가격은 수상할 정도로 쌈
같은 모델을 다른 제공사에서 호스팅하면 훨씬 비쌈 0
그래서 DeepSeek이 다른 곳보다 훨씬 싸게 호스팅할 수 있거나, 비즈니스 모델이 다르거나 둘 중 하나인데 후자일 것 같음
특히 개인정보 처리방침 1에서 “User Input”을 포함한 개인정보를 “서비스 개선 및 개발, 기술 훈련과 개선”에 쓸 수 있다고 하기 때문임-
어리석은 질문일 수 있지만, OpenRouter를 보면 DeepSeek을 제공하는 곳이 정말 미국, 싱가포르, 중국 밖에는 없나 싶음
유럽이나 다른 서구 제공사가 제공하기에 너무 명백한 상품처럼 보임
Mistral보다 훨씬 큰 도약일 거라 확신함이 모델들을 써보고 싶지만, 표준적인 법적 요구사항을 넘어서 내 데이터로 훈련하거나 저장하는 제공사는 피하고 싶음
-
여러 요인이 같이 작용함
추론 스택 효율 측면에서 많은 제공사는 기성 sglang / vllm / trtllm을 가져다 최선을 바라지만, DeepSeek 팀은 최적화 한계를 밀어붙이는 것으로 알려져 있음sglang과 vllm은 훌륭한 소프트웨어지만, DeepSeek의 희소 어텐션(DSA)을 보면 1.5년 전에 도입됐고(https://arxiv.org/abs/2512.02556), DeepSeek 3.2, GLM 5, DeepSeek V4에서 쓰였음
이제야 주요 추론 엔진에서 최적화가 천천히 들어가기 시작함: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 등)
물론 DS V4는 DSA 위에 모델 구조 최적화를 더했고, 오픈소스 추론 엔진이 이를 완전히 활용하려면 시간이 더 걸릴 것임개인정보 측면에서는 중국 밖에서 호스팅되는 추론에 사람들이 추가 비용을 낼 것이라는 베팅이 있음
DeepSeek은 API 데이터를 모델 개선에 쓴다고 투명하게 밝히기 때문에 특히 그렇음그 외에도 규모(MoE에서는 매우 중요), 신뢰성, 부드러운 기업 고객 종속 같은 요소가 있음
또한 암묵적 담합도 있을 가능성이 큼
GLM 5와 GLM 5.1 가격을 보면 둘의 실행 비용은 같지만, 5.1이 훨씬 좋은 모델이고 Z.AI도 가격을 올렸기 때문에 제공사들이 5.1에 더 비싼 가격을 매겼음 -
명백히 손해 보고 파는 중임
그래도 왜 안 되겠음
손해를 보면서 시장점유율을 얻는 건 미국만의 특허가 아님 -
DeepSeek 창업자 Liang Wenfeng에 대해 충분히 모를 수도 있음
그는 High-Flyer Quant의 창업자이기도 함
-
-
캐싱 쪽이 더 궁금함
“모든 모델에서 입력 캐시 적중 가격이 출시 가격의 1/10로 낮아졌고, 이 가격 조정은 2026/4/26 12:15 UTC부터 적용된다”고 되어 있음종료일이 없음
현재 DeepSeek V4 Flash는 입력 가격의 2%, 이번 V4 Pro 가격으로는 0.8%라 경쟁사 대비 극도로 낮고 단위 경제성에도 영향을 줄 정도라 임시일 줄 알았음V4 Pro의 경우 캐싱을 고려한 실질 비용은 입력 토큰 100만 개당 약 $0.04임(OpenRouter 지표 기준: https://openrouter.ai/deepseek/deepseek-v4-pro)
경쟁사의 소형 모델보다도 훨씬 쌈-
DeepSeek V4의 KV 캐시는 강하게 압축된 희소 어텐션 구조 덕분에 매우 효율적임
DSA만 쓰는 DeepSeek V3.2는 더 작은 모델이지만, 100만 컨텍스트 창에서 DS V4 Pro보다 메모리를 10배 더 씀또한 DeepSeek API는 캐시 적중률이 아주 좋음
같은 작업량에서 오픈 가중치 모델을 제공하는 주요 서구 추론 제공사는 KV 캐시 적중률이 약 50%인데, DS API는 약 80%가 나옴 -
DeepSeek V4의 큰 포인트는 KV 캐시 크기가 크게 줄었다는 것임
-
Flash 자체는 아주 경쟁력 있는 모델은 아니고, 가격도 시장의 다른 모델들과 비슷한 범위임
Flash 모델의 가장 직접적인 경쟁자는 아마 다음 정도임GPT 5.4 mini
Cache Read
$0.075
/M tokensGemini 3 flash:
Cache Read
$0.05
/M tokens그러니까 특별히 마법 같거나 획기적인 건 아님
-
Sonnet:
Cache Read
$0.30Gemini 3.5 flash:
Cache Read
$0.15
-
-
엄청난 가성비임
한동안 GLM 5.1로 GLM Coding Plan Max를 써왔고 DeepSeek V4 Pro도 3주쯤 테스트했는데, 복잡한 코딩 작업에서는 GLM 5.1보다 낫다고 봄
6,500만 토큰을 썼는데 이 가격으로 1.5달러가 나왔고 정말 쌈- DeepSeek은 다른 모델보다 토큰을 훨씬 많이 쓰는 것 같음
-
대단함
이러면 DeepSeek V4 Pro는 같은 범주 안에서도 다른 모델들에 비해 극도로 싸짐
출력 토큰 100만 개당 가격을 보면 다음과 같음DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
- 캐시 읽기 비용까지 보면 실제로는 더 쌈
에이전트 워크플로에서는 이 비용이 지배적일 수 있는데, DeepSeek의 캐시 읽기 비용은 비교가 안 될 정도로 낮음
토큰 100만 개당 $0.003626이고, 목록에서 그다음으로 싼 것도 100만 개당 $0.2가 넘음
거의 100배 차이 규모임 - 다음에 누가 “사용량 제한 때문에 징징대지 마라, 네 구독으로 회사가 손해 보고 있다”고 하면 이 댓글을 링크하겠음
제약 없이 돈을 태우도록 허락받지만 않는다면 추론을 효율적으로 하는 게 가능하다는 뜻임 - 구독한 뒤에 모델을 더 나쁘게 만들지도 않음
구독 2개월 뒤 비용 절감을 위해 Opus를 GPT-3보다 못하게 만들어버리면 아무리 Opus가 좋아도 의미가 없음 - GLM 5.1임
- 캐시 읽기 비용까지 보면 실제로는 더 쌈
-
V4 Pro 할인을 감안해도 V4 Flash가 달러당 성능이 가장 좋고, 에이전트형·도구 사용이 많은 작업에서는 전체 성능도 더 좋음
V4 Pro는 단발 추론에서 더 똑똑하지만 속도 차이가 큼
성능, 비용, 속도를 합치면 V4 Flash가 현재 우리 기준으로 단연 최고의 플래시 모델임데이터는 https://gertlabs.com/rankings에 있음
- 내 사용 사례, 주로 아주 큰 요약과 아이디어 추출에서는 Pro에 비해 꽤 별로였음
-
이들의 MLA 구조는 표준 어텐션 대비 KV 캐시를 약 5~13배 줄임
그래서 단순히 시장점유율을 얻기 위한 가격 전쟁이 아니라, 실제로 추론 실행 비용이 더 낮음- 로컬 추론에도 게임 체인저임
일반 소비자용 플랫폼에서 긴 컨텍스트, 배치 추론, KV 캐시의 디스크 저장이 가능해짐 - 맞음
이번 할인은 새 세대 모델에서 캐싱이 얼마나 효율적으로 작동하는지 확인하는 출시 후 시장 실험이었을 가능성이 큼
- 로컬 추론에도 게임 체인저임
-
미국 호스팅 모델보다 중국 호스팅 모델에서 우발적 데이터 유출이 더 걱정됨
예를 들어 에이전트가 env 파일을 읽는 경우 같은 것임
중국 정부가 미국 정부나 회사보다 모든 대화를 스캔하고 유용한 정보를 저장할 가능성이 더 높다고 의심하는 게 틀린 걸까?이런 말이 편향적이고 외국인 혐오처럼 들릴 수 있어 이 댓글을 쓰는 것조차 망설였음
내가 틀렸다고 누가 설득해주면 좋겠음
DeepSeek 호스팅 뒤의 회사가 어떤 곳인지, 데이터 프라이버시를 존중해온 이력이 있는지 아는 사람이 있나?-
합리적이지 않은 걱정은 아님
그래서 대부분의 미국 회사들이 AWS Bedrock이나 AI 연구소를 선호하고, 보통 데이터 보존 없음 계약을 요청함
하지만 어디에 호스팅되든 유출 우려는 있고, 달라지는 건 유인 구조라고 봄예를 들어 연구소들도 모든 대화를 스캔하고, 기업용 ZDR 계약으로 보호되지 않는 데이터로 훈련함
법 집행기관은 유효한 영장이나 긴급 상황에서 모든 사용자 데이터 접근을 요청할 수 있음 1DeepSeek V4를 비공개로 써보고 싶다면 Tinfoil(tinfoil.sh)을 써볼 수 있음
모든 모델을 검증 가능한 보안 하드웨어 엔클레이브에서 호스팅해 추론을 종단 간 비공개로 만듦
고지하자면 나는 공동창업자 중 한 명임1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
-
Azure 같은 걸 통해 쓰면 됨
전체 모델을 호스팅하고 미국에서 제공함
이런 제공사는 더 있을 것임우리는 그렇게 쓰고 있고 아주 잘 됨
-
그들이 그렇게 한다고 해도 놀라지 않을 것 같음
미국에 본사를 둔 모델들이 다른 정부를 위해 그렇게 한다고 해도 크게 놀라진 않을 듯함
데이터 기밀성에 관해서는 큰 기대를 하지 않음
Microsoft는 기업용 체크박스를 다 채우지만, Azure도 가끔 침해당함 -
그런 일이 생길 가능성은 0이 아니라고 봄
베이징은 언제든 DeepSeek이 너무 강력해졌거나 주요 수출품이 됐다고 판단하고 개입할 수 있음
이미 그러지 않았다는 보장도 없음중국에 한정되지 않는 외국 행위자들이 미국의 여러 산업에 걸친 핵심 네트워크에 대규모로 침투해 있고, 적절한 시점에 악용하려고 기다린다는 보고가 많음
최첨단 모델도 또 하나의 공격 벡터이며, 생각해보면 훨씬 쉽게 악용될 수 있음사실 클라우드 호스팅 모델이라면 어디든 이런 가능성이 있음
모델을 만드는 회사가 의도했든, 악의적 행위자가 취약점을 악용했든 마찬가지임 -
중국의 누군가가 굳이 나를 공격하러 올 만큼 내가 중요한 사람은 아님
그리고 DeepSeek은 사용자가 계속 플랫폼을 쓰도록 충분한 신뢰를 유지해야 함
모두의 암호화폐 지갑을 공격하는 키로거처럼 굴면 신뢰가 무너짐내가 중국 정부가 전략적으로 중요하다고 여길 일을 하고 있다면 당연히 걱정하겠지만, 나는 그런 일을 하지 않음
오히려 이 나라의 기술 부자들이 LLM으로 나를 광범위하게 프로파일링하고, 중국의 실제 혹은 상상 속 사회신용점수보다 훨씬 더 디스토피아적인 무언가를 이 나라에서 만드는 게 더 걱정됨
미국의 개인인 당신이 중국 정부를 걱정해야 한다고 설득하려는 사람들이야말로 정말 걱정해야 할 사람들일 가능성이 큼
-
-
copilot에 붙이려는 사람이 있다면, 예전에 연결을 처리하는 프록시 스크립트를 만들어뒀고 유용할 수 있음: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...