DeepSeek이 V4 Pro 가격 할인을 영구화함

(api-docs.deepseek.com)

DeepSeek-V4-Pro API 가격은 75% 할인 프로모션 종료 뒤에도 공식적으로 기존 가격의 1/4 수준으로 유지됨
과금은 100만 토큰당 가격을 기준으로 하며, 입력 토큰과 출력 토큰 사용량에 따라 잔액에서 직접 차감됨
지원 모델은 DeepSeek-V4-Flash와 DeepSeek-V4-Pro이며, 둘 다 비사고 모드와 사고 모드를 지원하고 기본값은 사고 모드임
두 모델 모두 컨텍스트 길이는 1M, 최대 출력은 384K이며, 동시성 제한은 Flash 2500, Pro 500으로 다름
모든 모델의 입력 캐시 적중 가격은 출시 가격의 1/10로 낮아졌고, 조정은 2026년 4월 26일 12:15 UTC부터 적용됨

과금 기준

가격 단위는 100만 토큰당 요금이며, 토큰은 모델이 인식하는 가장 작은 텍스트 단위로 단어, 숫자, 문장부호가 될 수 있음
청구 기준은 모델의 입력 토큰과 출력 토큰 총량임
비용은 토큰 수 × 가격으로 계산되며, 충전 잔액 또는 지급 잔액에서 직접 차감됨
충전 잔액과 지급 잔액이 모두 있으면 지급 잔액이 먼저 사용됨
제품 가격은 변동될 수 있으며, DeepSeek은 가격 조정 권리를 보유함
실제 사용량에 맞춰 충전하고, 최신 가격은 해당 페이지에서 정기적으로 확인하는 방식이 권장됨

모델과 가격

지원 모델
- DeepSeek-V4-Flash와 DeepSeek-V4-Pro가 제공됨
- 두 모델 모두 비사고 모드와 사고 모드를 지원하며, 기본값은 사고 모드임
- deepseek-chat과 deepseek-reasoner 모델명은 향후 폐기될 예정임
- 호환성을 위해 deepseek-chat은 deepseek-v4-flash의 비사고 모드에, deepseek-reasoner는 deepseek-v4-flash의 사고 모드에 각각 대응함
엔드포인트와 기능
- Anthropic 형식 Base URL은 https://api.deepseek.com/anthropic임
- 사고 모드 전환 방법은 Thinking Mode에서 확인 가능함
- 관련 기능 문서로 Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta）가 제공됨
컨텍스트와 출력 한도
- 컨텍스트 길이는 1M임
- 최대 출력은 384K임

100만 토큰당 가격

항목	DeepSeek-V4-Flash	DeepSeek-V4-Pro
입력 토큰, 캐시 적중	$0.0028	$0.003625
입력 토큰, 캐시 미스	$0.14	$0.435
출력 토큰	$0.28	$0.87
동시성 제한	2500	500

DeepSeek-V4-Pro 할인 조정
- DeepSeek-V4-Pro 가격은 75% 할인 가격으로 표시됨
- 캐시 적중 입력 토큰 가격은 기존 $0.0145에서 $0.003625로 낮아짐
- 캐시 미스 입력 토큰 가격은 기존 $1.74에서 $0.435로 낮아짐
- 출력 토큰 가격은 기존 $3.48에서 $0.87로 낮아짐
- 75% 할인 프로모션이 2026년 5월 31일 15:59 UTC에 종료된 뒤에도 DeepSeek-V4-Pro API 가격은 공식적으로 기존 가격의 1/4로 조정됨
캐시 적중 가격 인하
- 모든 모델의 입력 캐시 적중 가격은 출시 가격의 1/10로 인하됨
- 이 가격 조정은 2026년 4월 26일 12:15 UTC부터 적용됨
동시성 제한
- DeepSeek-V4-Flash의 동시성 제한은 2500임
- DeepSeek-V4-Pro의 동시성 제한은 500임
- 동시성 제한의 자세한 내용은 Rate Limit & Isolation에서 확인 가능함

j2sus91 1달전 [-]

약관 보시면 api 사용이 학습에 사용되지 않는다는 약관이 명시적으로 없다고합니다
이 부분 참고해서 사용하시면 좋을 것 같아요~

답변달기

myoun 1달전 [-]

오 좋네요

답변달기

GN⁺ 1달전 [-]

Hacker News 의견들

자체 코딩 에이전트를 내놓으면 DeepSeek 모델을 주력으로 쓰기 시작할지도 모르겠음
모델 오픈소스 공개, 연구 발표, 낮은 가격 유지처럼 “맞는 방향”의 일을 계속 하는 듯함
- Claude Code에서 V4 Pro를 쓸 수 있음 1
  직접 써봤는데 인상적이었음
- OpenCode와도 아주 잘 맞음
  우리 팀은 다른 구독 서비스의 5시간 제한에 자주 걸리는데, DeepSeek을 백업으로 두니 꽤 좋음
  50달러만 충전해뒀는데 영원히 안 줄어들 것 같은 느낌임
  
  아직 최첨단 모델을 완전히 대체할 정도는 아니지만, 백업으로는 확실히 훌륭함
- 굳이 DeepSeek이 코딩 에이전트까지 제공해야 할 필요가 있나 싶음
  그냥 모델을 아무 기성 코딩 에이전트에 붙여 쓰면 됨
  개인적으로는 Pi를 선호하지만, 각자 잘 맞는 걸 쓰면 됨
- 이번 주 초부터 내 코드베이스에서 중국 모델들을 테스트하기 시작했음
  아직 대화형 코딩보다는 이슈 분류, 버그 자동 수정, 로그 분석 등을 봤고, DeepSeek, Kimi, GLM, Qwen, MiMO를 GPT-5.5 high와 비교했으며 전부 Pi 하네스에서 설치 없이 돌렸음
  
  지금까지는 Kimi와 MiMO가 가장 유망해 보임
  엄밀하게 충분히 테스트한 건 아니지만, 실무의 일반적인 일상 작업에서는 이 모델들이 사람들이 생각하는 것만큼 뒤처져 있지 않을 수 있다는 첫인상임
  
  다만 “똑똑하게 일하기보다 열심히 일하는” 쪽에 가까워서, 비슷한 결과까지 더 느리게 도달하고 토큰도 더 많이 쓰지만 가격은 훨씬 낮음
- 코딩 에이전트는 모델 제공사와 어느 정도 독립적인 편이 좋겠음
  제공사들이 품질, 기능, 가격을 너무 자주 바꾸기 때문에 그때마다 에이전트까지 갈아타고 싶지 않음
  
  상황이 좀 느려지고 안정화되길 기대하고 있음
  지금 당장 그래야 한다는 뜻은 아니지만, 그런 시점이 오면 좋겠음
DeepSeek V4를 아직 안 써봤다면 놓치고 있는 게 큼
가격 때문에 믿기 어려울 정도로 좋음

DeepSeek의 사고 연쇄는 읽어보면 정말 흥미로움
OpenCode에서는 보여주지 않지만 직접 읽어보면 이 모델이 얼마나 저평가됐는지 놀랄 수 있음

내 모델 사용량은 아주 적지만, 모델을 오픈소스로 공개하는 데 대한 감사와 전반적인 사회적 선이라고 보는 방향에 대한 지지 표시로 DeepSeek에 정기적으로 직접 돈을 내고 있음
- 좋고 싸지만, 정치 이야기를 꺼내면 검열 규칙 같은 게 발동할 수 있음
  사고 과정을 보다가 갑자기 전부 지우고 아무 설명 없이 다른 주제로 바꾸자고 제안함
  뉴스 매체가 인민을 위해 봉사한다는 식의 일반론 메시지를 출력한 적도 있음
  
  둘 다 민감한 요청도, 불법적이거나 체제 전복적인 요청도 아니어서 놀랐음
  하지만 조금이라도 정치적인 주제였고 그걸로 충분했음
  서구의 검열은 보통 더 미묘해서, 오싹하면서도 묘하게 신선했음
- 맞음, 모델이 정말 좋음
  회사에서는 Claude를 쓰고 개인적으로는 DeepSeek을 쓰는데, 나를 적극적으로 파산시키려 들지 않는 유일한 모델임
- 특정 작업에는 V4 Pro를 좋아하지만, 코딩에서는 V4 Flash가 꽤 인상적이었음
  간결하고 핵심을 잘 짚으며 실수가 적은 편이고 꽤 빠름
- opencode CLI에서는 추론 흔적이 보임
  설정 문제일 수도 있음
- opencode에서 추론 표시를 켜고 끌 수 있음
이 가격은 수상할 정도로 쌈
같은 모델을 다른 제공사에서 호스팅하면 훨씬 비쌈 0
그래서 DeepSeek이 다른 곳보다 훨씬 싸게 호스팅할 수 있거나, 비즈니스 모델이 다르거나 둘 중 하나인데 후자일 것 같음
특히 개인정보 처리방침 1에서 “User Input”을 포함한 개인정보를 “서비스 개선 및 개발, 기술 훈련과 개선”에 쓸 수 있다고 하기 때문임
- 어리석은 질문일 수 있지만, OpenRouter를 보면 DeepSeek을 제공하는 곳이 정말 미국, 싱가포르, 중국 밖에는 없나 싶음
  유럽이나 다른 서구 제공사가 제공하기에 너무 명백한 상품처럼 보임
  Mistral보다 훨씬 큰 도약일 거라 확신함
  
  이 모델들을 써보고 싶지만, 표준적인 법적 요구사항을 넘어서 내 데이터로 훈련하거나 저장하는 제공사는 피하고 싶음
- 여러 요인이 같이 작용함
  추론 스택 효율 측면에서 많은 제공사는 기성 sglang / vllm / trtllm을 가져다 최선을 바라지만, DeepSeek 팀은 최적화 한계를 밀어붙이는 것으로 알려져 있음
  
  sglang과 vllm은 훌륭한 소프트웨어지만, DeepSeek의 희소 어텐션(DSA)을 보면 1.5년 전에 도입됐고(https://arxiv.org/abs/2512.02556), DeepSeek 3.2, GLM 5, DeepSeek V4에서 쓰였음
  이제야 주요 추론 엔진에서 최적화가 천천히 들어가기 시작함: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 등)
  물론 DS V4는 DSA 위에 모델 구조 최적화를 더했고, 오픈소스 추론 엔진이 이를 완전히 활용하려면 시간이 더 걸릴 것임
  
  개인정보 측면에서는 중국 밖에서 호스팅되는 추론에 사람들이 추가 비용을 낼 것이라는 베팅이 있음
  DeepSeek은 API 데이터를 모델 개선에 쓴다고 투명하게 밝히기 때문에 특히 그렇음
  
  그 외에도 규모(MoE에서는 매우 중요), 신뢰성, 부드러운 기업 고객 종속 같은 요소가 있음
  
  또한 암묵적 담합도 있을 가능성이 큼
  GLM 5와 GLM 5.1 가격을 보면 둘의 실행 비용은 같지만, 5.1이 훨씬 좋은 모델이고 Z.AI도 가격을 올렸기 때문에 제공사들이 5.1에 더 비싼 가격을 매겼음
- 명백히 손해 보고 파는 중임
  그래도 왜 안 되겠음
  손해를 보면서 시장점유율을 얻는 건 미국만의 특허가 아님
- DeepSeek 창업자 Liang Wenfeng에 대해 충분히 모를 수도 있음
  그는 High-Flyer Quant의 창업자이기도 함
캐싱 쪽이 더 궁금함
“모든 모델에서 입력 캐시 적중 가격이 출시 가격의 1/10로 낮아졌고, 이 가격 조정은 2026/4/26 12:15 UTC부터 적용된다”고 되어 있음

종료일이 없음
현재 DeepSeek V4 Flash는 입력 가격의 2%, 이번 V4 Pro 가격으로는 0.8%라 경쟁사 대비 극도로 낮고 단위 경제성에도 영향을 줄 정도라 임시일 줄 알았음

V4 Pro의 경우 캐싱을 고려한 실질 비용은 입력 토큰 100만 개당 약 $0.04임(OpenRouter 지표 기준: https://openrouter.ai/deepseek/deepseek-v4-pro)
경쟁사의 소형 모델보다도 훨씬 쌈
- DeepSeek V4의 KV 캐시는 강하게 압축된 희소 어텐션 구조 덕분에 매우 효율적임
  DSA만 쓰는 DeepSeek V3.2는 더 작은 모델이지만, 100만 컨텍스트 창에서 DS V4 Pro보다 메모리를 10배 더 씀
  
  또한 DeepSeek API는 캐시 적중률이 아주 좋음
  같은 작업량에서 오픈 가중치 모델을 제공하는 주요 서구 추론 제공사는 KV 캐시 적중률이 약 50%인데, DS API는 약 80%가 나옴
- DeepSeek V4의 큰 포인트는 KV 캐시 크기가 크게 줄었다는 것임
- Flash 자체는 아주 경쟁력 있는 모델은 아니고, 가격도 시장의 다른 모델들과 비슷한 범위임
  Flash 모델의 가장 직접적인 경쟁자는 아마 다음 정도임
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  그러니까 특별히 마법 같거나 획기적인 건 아님
- Sonnet:
  Cache Read
  $0.30
  
  Gemini 3.5 flash:
  Cache Read
  $0.15
엄청난 가성비임
한동안 GLM 5.1로 GLM Coding Plan Max를 써왔고 DeepSeek V4 Pro도 3주쯤 테스트했는데, 복잡한 코딩 작업에서는 GLM 5.1보다 낫다고 봄
6,500만 토큰을 썼는데 이 가격으로 1.5달러가 나왔고 정말 쌈
- DeepSeek은 다른 모델보다 토큰을 훨씬 많이 쓰는 것 같음
대단함
이러면 DeepSeek V4 Pro는 같은 범주 안에서도 다른 모델들에 비해 극도로 싸짐
출력 토큰 100만 개당 가격을 보면 다음과 같음

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- 캐시 읽기 비용까지 보면 실제로는 더 쌈
  에이전트 워크플로에서는 이 비용이 지배적일 수 있는데, DeepSeek의 캐시 읽기 비용은 비교가 안 될 정도로 낮음
  토큰 100만 개당 $0.003626이고, 목록에서 그다음으로 싼 것도 100만 개당 $0.2가 넘음
  거의 100배 차이 규모임
- 다음에 누가 “사용량 제한 때문에 징징대지 마라, 네 구독으로 회사가 손해 보고 있다”고 하면 이 댓글을 링크하겠음
  제약 없이 돈을 태우도록 허락받지만 않는다면 추론을 효율적으로 하는 게 가능하다는 뜻임
- 구독한 뒤에 모델을 더 나쁘게 만들지도 않음
  구독 2개월 뒤 비용 절감을 위해 Opus를 GPT-3보다 못하게 만들어버리면 아무리 Opus가 좋아도 의미가 없음
- GLM 5.1임
V4 Pro 할인을 감안해도 V4 Flash가 달러당 성능이 가장 좋고, 에이전트형·도구 사용이 많은 작업에서는 전체 성능도 더 좋음
V4 Pro는 단발 추론에서 더 똑똑하지만 속도 차이가 큼
성능, 비용, 속도를 합치면 V4 Flash가 현재 우리 기준으로 단연 최고의 플래시 모델임

데이터는 https://gertlabs.com/rankings에 있음
- 내 사용 사례, 주로 아주 큰 요약과 아이디어 추출에서는 Pro에 비해 꽤 별로였음
이들의 MLA 구조는 표준 어텐션 대비 KV 캐시를 약 5~13배 줄임
그래서 단순히 시장점유율을 얻기 위한 가격 전쟁이 아니라, 실제로 추론 실행 비용이 더 낮음
- 로컬 추론에도 게임 체인저임
  일반 소비자용 플랫폼에서 긴 컨텍스트, 배치 추론, KV 캐시의 디스크 저장이 가능해짐
- 맞음
  이번 할인은 새 세대 모델에서 캐싱이 얼마나 효율적으로 작동하는지 확인하는 출시 후 시장 실험이었을 가능성이 큼
미국 호스팅 모델보다 중국 호스팅 모델에서 우발적 데이터 유출이 더 걱정됨
예를 들어 에이전트가 env 파일을 읽는 경우 같은 것임
중국 정부가 미국 정부나 회사보다 모든 대화를 스캔하고 유용한 정보를 저장할 가능성이 더 높다고 의심하는 게 틀린 걸까?

이런 말이 편향적이고 외국인 혐오처럼 들릴 수 있어 이 댓글을 쓰는 것조차 망설였음
내가 틀렸다고 누가 설득해주면 좋겠음
DeepSeek 호스팅 뒤의 회사가 어떤 곳인지, 데이터 프라이버시를 존중해온 이력이 있는지 아는 사람이 있나?
- 합리적이지 않은 걱정은 아님
  그래서 대부분의 미국 회사들이 AWS Bedrock이나 AI 연구소를 선호하고, 보통 데이터 보존 없음 계약을 요청함
  하지만 어디에 호스팅되든 유출 우려는 있고, 달라지는 건 유인 구조라고 봄
  
  예를 들어 연구소들도 모든 대화를 스캔하고, 기업용 ZDR 계약으로 보호되지 않는 데이터로 훈련함
  법 집행기관은 유효한 영장이나 긴급 상황에서 모든 사용자 데이터 접근을 요청할 수 있음 1
  
  DeepSeek V4를 비공개로 써보고 싶다면 Tinfoil(tinfoil.sh)을 써볼 수 있음
  모든 모델을 검증 가능한 보안 하드웨어 엔클레이브에서 호스팅해 추론을 종단 간 비공개로 만듦
  고지하자면 나는 공동창업자 중 한 명임
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Azure 같은 걸 통해 쓰면 됨
  전체 모델을 호스팅하고 미국에서 제공함
  이런 제공사는 더 있을 것임
  
  우리는 그렇게 쓰고 있고 아주 잘 됨
- 그들이 그렇게 한다고 해도 놀라지 않을 것 같음
  미국에 본사를 둔 모델들이 다른 정부를 위해 그렇게 한다고 해도 크게 놀라진 않을 듯함
  데이터 기밀성에 관해서는 큰 기대를 하지 않음
  Microsoft는 기업용 체크박스를 다 채우지만, Azure도 가끔 침해당함
- 그런 일이 생길 가능성은 0이 아니라고 봄
  베이징은 언제든 DeepSeek이 너무 강력해졌거나 주요 수출품이 됐다고 판단하고 개입할 수 있음
  이미 그러지 않았다는 보장도 없음
  
  중국에 한정되지 않는 외국 행위자들이 미국의 여러 산업에 걸친 핵심 네트워크에 대규모로 침투해 있고, 적절한 시점에 악용하려고 기다린다는 보고가 많음
  최첨단 모델도 또 하나의 공격 벡터이며, 생각해보면 훨씬 쉽게 악용될 수 있음
  
  사실 클라우드 호스팅 모델이라면 어디든 이런 가능성이 있음
  모델을 만드는 회사가 의도했든, 악의적 행위자가 취약점을 악용했든 마찬가지임
- 중국의 누군가가 굳이 나를 공격하러 올 만큼 내가 중요한 사람은 아님
  그리고 DeepSeek은 사용자가 계속 플랫폼을 쓰도록 충분한 신뢰를 유지해야 함
  모두의 암호화폐 지갑을 공격하는 키로거처럼 굴면 신뢰가 무너짐
  
  내가 중국 정부가 전략적으로 중요하다고 여길 일을 하고 있다면 당연히 걱정하겠지만, 나는 그런 일을 하지 않음
  
  오히려 이 나라의 기술 부자들이 LLM으로 나를 광범위하게 프로파일링하고, 중국의 실제 혹은 상상 속 사회신용점수보다 훨씬 더 디스토피아적인 무언가를 이 나라에서 만드는 게 더 걱정됨
  미국의 개인인 당신이 중국 정부를 걱정해야 한다고 설득하려는 사람들이야말로 정말 걱정해야 할 사람들일 가능성이 큼
copilot에 붙이려는 사람이 있다면, 예전에 연결을 처리하는 프록시 스크립트를 만들어뒀고 유용할 수 있음: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

답변달기

DeepSeek이 V4 Pro 가격 할인을 영구화함

과금 기준

모델과 가격

지원 모델

엔드포인트와 기능

컨텍스트와 출력 한도

100만 토큰당 가격

DeepSeek-V4-Pro 할인 조정

캐시 적중 가격 인하

동시성 제한

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들