# DeepSeek이 V4 Pro 가격 할인을 영구화함

> Clean Markdown view of GeekNews topic #29797. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29797](https://news.hada.io/topic?id=29797)
- GeekNews Markdown: [https://news.hada.io/topic/29797.md](https://news.hada.io/topic/29797.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-23T21:51:15+09:00
- Updated: 2026-05-23T21:51:15+09:00
- Original source: [api-docs.deepseek.com](https://api-docs.deepseek.com/quick_start/pricing)
- Points: 1
- Comments: 1

## Topic Body

- **DeepSeek-V4-Pro** API 가격은 75% 할인 프로모션 종료 뒤에도 공식적으로 기존 가격의 **1/4** 수준으로 유지됨
- 과금은 100만 토큰당 가격을 기준으로 하며, **입력 토큰과 출력 토큰** 사용량에 따라 잔액에서 직접 차감됨
- 지원 모델은 **DeepSeek-V4-Flash**와 DeepSeek-V4-Pro이며, 둘 다 비사고 모드와 사고 모드를 지원하고 기본값은 사고 모드임
- 두 모델 모두 **컨텍스트 길이**는 1M, 최대 출력은 384K이며, 동시성 제한은 Flash 2500, Pro 500으로 다름
- 모든 모델의 **입력 캐시 적중 가격**은 출시 가격의 1/10로 낮아졌고, 조정은 2026년 4월 26일 12:15 UTC부터 적용됨

---

### 과금 기준
- **가격 단위**는 100만 토큰당 요금이며, 토큰은 모델이 인식하는 가장 작은 텍스트 단위로 단어, 숫자, 문장부호가 될 수 있음
- **청구 기준**은 모델의 입력 토큰과 출력 토큰 총량임
- 비용은 `토큰 수 × 가격`으로 계산되며, 충전 잔액 또는 지급 잔액에서 직접 차감됨
- 충전 잔액과 지급 잔액이 모두 있으면 **지급 잔액**이 먼저 사용됨
- 제품 가격은 변동될 수 있으며, DeepSeek은 가격 조정 권리를 보유함
- 실제 사용량에 맞춰 충전하고, 최신 가격은 해당 페이지에서 정기적으로 확인하는 방식이 권장됨

### 모델과 가격
- ## 지원 모델
  - **DeepSeek-V4-Flash**와 **DeepSeek-V4-Pro**가 제공됨
  - 두 모델 모두 비사고 모드와 사고 모드를 지원하며, 기본값은 사고 모드임
  - `deepseek-chat`과 `deepseek-reasoner` 모델명은 향후 폐기될 예정임
  - 호환성을 위해 `deepseek-chat`은 `deepseek-v4-flash`의 비사고 모드에, `deepseek-reasoner`는 `deepseek-v4-flash`의 사고 모드에 각각 대응함
- ## 엔드포인트와 기능
  - Anthropic 형식 Base URL은 [https://api.deepseek.com/anthropic](https://api.deepseek.com/anthropic)임
  - 사고 모드 전환 방법은 [Thinking Mode](https://api-docs.deepseek.com/guides/thinking_mode)에서 확인 가능함
  - 관련 기능 문서로 [Json Output](https://api-docs.deepseek.com/guides/json_mode), [Tool Calls](https://api-docs.deepseek.com/guides/tool_calls), [Chat Prefix Completion（Beta）](https://api-docs.deepseek.com/guides/chat_prefix_completion), [FIM Completion（Beta）](https://api-docs.deepseek.com/guides/fim_completion)가 제공됨
- ## 컨텍스트와 출력 한도
  - **컨텍스트 길이**는 1M임
  - **최대 출력**은 384K임

### 100만 토큰당 가격
| 항목 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---:|---:|
| 입력 토큰, 캐시 적중 | $0.0028 | $0.003625 |
| 입력 토큰, 캐시 미스 | $0.14 | $0.435 |
| 출력 토큰 | $0.28 | $0.87 |
| 동시성 제한 | 2500 | 500 |

- ## DeepSeek-V4-Pro 할인 조정
  - **DeepSeek-V4-Pro** 가격은 75% 할인 가격으로 표시됨
  - 캐시 적중 입력 토큰 가격은 기존 $0.0145에서 $0.003625로 낮아짐
  - 캐시 미스 입력 토큰 가격은 기존 $1.74에서 $0.435로 낮아짐
  - 출력 토큰 가격은 기존 $3.48에서 $0.87로 낮아짐
  - 75% 할인 프로모션이 2026년 5월 31일 15:59 UTC에 종료된 뒤에도 DeepSeek-V4-Pro API 가격은 공식적으로 기존 가격의 **1/4**로 조정됨
- ## 캐시 적중 가격 인하
  - 모든 모델의 **입력 캐시 적중 가격**은 출시 가격의 1/10로 인하됨
  - 이 가격 조정은 2026년 4월 26일 12:15 UTC부터 적용됨
- ## 동시성 제한
  - DeepSeek-V4-Flash의 동시성 제한은 2500임
  - DeepSeek-V4-Pro의 동시성 제한은 500임
  - 동시성 제한의 자세한 내용은 [Rate Limit & Isolation](https://api-docs.deepseek.com/quick_start/rate_limit)에서 확인 가능함

## Comments


### Comment 58114

- Author: neo
- Created: 2026-05-23T21:51:15+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48237663) 
- 자체 **코딩 에이전트**를 내놓으면 DeepSeek 모델을 주력으로 쓰기 시작할지도 모르겠음  
  모델 오픈소스 공개, 연구 발표, 낮은 가격 유지처럼 “맞는 방향”의 일을 계속 하는 듯함
  - **Claude Code**에서 V4 Pro를 쓸 수 있음 [1]  
    직접 써봤는데 인상적이었음
    
    [1]: [https://api-docs.deepseek.com/quick_start/agent_integrations...](<https://api-docs.deepseek.com/quick_start/agent_integrations/claude_code>)
  - OpenCode와도 아주 잘 맞음  
    우리 팀은 다른 구독 서비스의 **5시간 제한**에 자주 걸리는데, DeepSeek을 백업으로 두니 꽤 좋음  
    50달러만 충전해뒀는데 영원히 안 줄어들 것 같은 느낌임
    
    아직 최첨단 모델을 완전히 대체할 정도는 아니지만, 백업으로는 확실히 훌륭함
  - 굳이 DeepSeek이 코딩 에이전트까지 제공해야 할 필요가 있나 싶음  
    그냥 모델을 아무 기성 코딩 에이전트에 붙여 쓰면 됨  
    개인적으로는 **Pi**를 선호하지만, 각자 잘 맞는 걸 쓰면 됨
  - 이번 주 초부터 내 코드베이스에서 **중국 모델들**을 테스트하기 시작했음  
    아직 대화형 코딩보다는 이슈 분류, 버그 자동 수정, 로그 분석 등을 봤고, DeepSeek, Kimi, GLM, Qwen, MiMO를 GPT-5.5 high와 비교했으며 전부 Pi 하네스에서 설치 없이 돌렸음
    
    지금까지는 **Kimi와 MiMO**가 가장 유망해 보임  
    엄밀하게 충분히 테스트한 건 아니지만, 실무의 일반적인 일상 작업에서는 이 모델들이 사람들이 생각하는 것만큼 뒤처져 있지 않을 수 있다는 첫인상임
    
    다만 “똑똑하게 일하기보다 열심히 일하는” 쪽에 가까워서, 비슷한 결과까지 더 느리게 도달하고 토큰도 더 많이 쓰지만 가격은 훨씬 낮음
  - 코딩 에이전트는 모델 제공사와 어느 정도 **독립적**인 편이 좋겠음  
    제공사들이 품질, 기능, 가격을 너무 자주 바꾸기 때문에 그때마다 에이전트까지 갈아타고 싶지 않음
    
    상황이 좀 느려지고 안정화되길 기대하고 있음  
    지금 당장 그래야 한다는 뜻은 아니지만, 그런 시점이 오면 좋겠음

- **DeepSeek V4**를 아직 안 써봤다면 놓치고 있는 게 큼  
  가격 때문에 믿기 어려울 정도로 좋음
  
  DeepSeek의 사고 연쇄는 읽어보면 정말 흥미로움  
  OpenCode에서는 보여주지 않지만 직접 읽어보면 이 모델이 얼마나 저평가됐는지 놀랄 수 있음
  
  내 모델 사용량은 아주 적지만, 모델을 오픈소스로 공개하는 데 대한 감사와 전반적인 사회적 선이라고 보는 방향에 대한 지지 표시로 DeepSeek에 정기적으로 직접 돈을 내고 있음
  - 좋고 싸지만, **정치 이야기**를 꺼내면 검열 규칙 같은 게 발동할 수 있음  
    사고 과정을 보다가 갑자기 전부 지우고 아무 설명 없이 다른 주제로 바꾸자고 제안함  
    뉴스 매체가 인민을 위해 봉사한다는 식의 일반론 메시지를 출력한 적도 있음
    
    둘 다 민감한 요청도, 불법적이거나 체제 전복적인 요청도 아니어서 놀랐음  
    하지만 조금이라도 정치적인 주제였고 그걸로 충분했음  
    서구의 검열은 보통 더 미묘해서, 오싹하면서도 묘하게 신선했음
  - 맞음, 모델이 정말 좋음  
    회사에서는 Claude를 쓰고 개인적으로는 DeepSeek을 쓰는데, 나를 적극적으로 **파산시키려 들지 않는** 유일한 모델임
  - 특정 작업에는 V4 Pro를 좋아하지만, 코딩에서는 **V4 Flash**가 꽤 인상적이었음  
    간결하고 핵심을 잘 짚으며 실수가 적은 편이고 꽤 빠름
  - opencode CLI에서는 추론 흔적이 보임  
    설정 문제일 수도 있음
  - opencode에서 **추론 표시**를 켜고 끌 수 있음

- 이 가격은 수상할 정도로 쌈  
  같은 모델을 다른 제공사에서 호스팅하면 훨씬 비쌈 [0]  
  그래서 DeepSeek이 다른 곳보다 훨씬 싸게 호스팅할 수 있거나, 비즈니스 모델이 다르거나 둘 중 하나인데 후자일 것 같음  
  특히 개인정보 처리방침 [1]에서 “User Input”을 포함한 개인정보를 “서비스 개선 및 개발, 기술 훈련과 개선”에 쓸 수 있다고 하기 때문임
  
  [0]: [https://openrouter.ai/deepseek/deepseek-v4-pro/providers](<https://openrouter.ai/deepseek/deepseek-v4-pro/providers>)
  
  [1]: [https://cdn.deepseek.com/policies/en-US/deepseek-privacy-pol...](<https://cdn.deepseek.com/policies/en-US/deepseek-privacy-policy.html>)
  - 어리석은 질문일 수 있지만, OpenRouter를 보면 DeepSeek을 제공하는 곳이 정말 **미국, 싱가포르, 중국** 밖에는 없나 싶음  
    유럽이나 다른 서구 제공사가 제공하기에 너무 명백한 상품처럼 보임  
    Mistral보다 훨씬 큰 도약일 거라 확신함
    
    이 모델들을 써보고 싶지만, 표준적인 법적 요구사항을 넘어서 내 데이터로 훈련하거나 저장하는 제공사는 피하고 싶음
  - 여러 요인이 같이 작용함  
    **추론 스택 효율** 측면에서 많은 제공사는 기성 sglang / vllm / trtllm을 가져다 최선을 바라지만, DeepSeek 팀은 최적화 한계를 밀어붙이는 것으로 알려져 있음
    
    sglang과 vllm은 훌륭한 소프트웨어지만, DeepSeek의 희소 어텐션(DSA)을 보면 1.5년 전에 도입됐고([https://arxiv.org/abs/2512.02556](<https://arxiv.org/abs/2512.02556>)), DeepSeek 3.2, GLM 5, DeepSeek V4에서 쓰였음  
    이제야 주요 추론 엔진에서 최적화가 천천히 들어가기 시작함: ([https://github.com/sgl-project/sglang/issues/19380](<https://github.com/sgl-project/sglang/issues/19380>) [https://github.com/sgl-project/sglang/pull/22851](<https://github.com/sgl-project/sglang/pull/22851>) 등)  
    물론 DS V4는 DSA 위에 모델 구조 최적화를 더했고, 오픈소스 추론 엔진이 이를 완전히 활용하려면 시간이 더 걸릴 것임
    
    개인정보 측면에서는 중국 밖에서 호스팅되는 추론에 사람들이 추가 비용을 낼 것이라는 베팅이 있음  
    DeepSeek은 API 데이터를 모델 개선에 쓴다고 투명하게 밝히기 때문에 특히 그렇음
    
    그 외에도 규모(MoE에서는 매우 중요), 신뢰성, 부드러운 기업 고객 종속 같은 요소가 있음
    
    또한 암묵적 담합도 있을 가능성이 큼  
    GLM 5와 GLM 5.1 가격을 보면 둘의 실행 비용은 같지만, 5.1이 훨씬 좋은 모델이고 Z.AI도 가격을 올렸기 때문에 제공사들이 5.1에 더 비싼 가격을 매겼음
  - 명백히 **손해 보고 파는 중**임  
    그래도 왜 안 되겠음  
    손해를 보면서 시장점유율을 얻는 건 미국만의 특허가 아님
  - DeepSeek 창업자 **Liang Wenfeng**에 대해 충분히 모를 수도 있음  
    그는 High-Flyer Quant의 창업자이기도 함

- 캐싱 쪽이 더 궁금함  
  “모든 모델에서 입력 캐시 적중 가격이 출시 가격의 1/10로 낮아졌고, 이 가격 조정은 2026/4/26 12:15 UTC부터 적용된다”고 되어 있음
  
  종료일이 없음  
  현재 DeepSeek V4 Flash는 입력 가격의 2%, 이번 V4 Pro 가격으로는 0.8%라 경쟁사 대비 극도로 낮고 단위 경제성에도 영향을 줄 정도라 임시일 줄 알았음
  
  V4 Pro의 경우 캐싱을 고려한 실질 비용은 입력 토큰 100만 개당 약 **$0.04**임(OpenRouter 지표 기준: [https://openrouter.ai/deepseek/deepseek-v4-pro](<https://openrouter.ai/deepseek/deepseek-v4-pro>))  
  경쟁사의 소형 모델보다도 훨씬 쌈
  - DeepSeek V4의 **KV 캐시**는 강하게 압축된 희소 어텐션 구조 덕분에 매우 효율적임  
    DSA만 쓰는 DeepSeek V3.2는 더 작은 모델이지만, 100만 컨텍스트 창에서 DS V4 Pro보다 메모리를 10배 더 씀
    
    또한 DeepSeek API는 캐시 적중률이 아주 좋음  
    같은 작업량에서 오픈 가중치 모델을 제공하는 주요 서구 추론 제공사는 KV 캐시 적중률이 약 50%인데, DS API는 약 80%가 나옴
  - DeepSeek V4의 큰 포인트는 **KV 캐시 크기**가 크게 줄었다는 것임
  - Flash 자체는 아주 경쟁력 있는 모델은 아니고, 가격도 시장의 다른 모델들과 비슷한 범위임  
    Flash 모델의 가장 직접적인 경쟁자는 아마 다음 정도임
    
    GPT 5.4 mini
    
    Cache Read  
    $0.075  
    /M tokens
    
    Gemini 3 flash:
    
    Cache Read  
    $0.05  
    /M tokens
    
    그러니까 특별히 마법 같거나 획기적인 건 아님
  - Sonnet:  
    Cache Read  
    $0.30
    
    Gemini 3.5 flash:  
    Cache Read  
    $0.15

- 엄청난 **가성비**임  
  한동안 GLM 5.1로 GLM Coding Plan Max를 써왔고 DeepSeek V4 Pro도 3주쯤 테스트했는데, 복잡한 코딩 작업에서는 GLM 5.1보다 낫다고 봄  
  6,500만 토큰을 썼는데 이 가격으로 1.5달러가 나왔고 정말 쌈
  - DeepSeek은 다른 모델보다 **토큰을 훨씬 많이 쓰는** 것 같음

- 대단함  
  이러면 DeepSeek V4 Pro는 같은 범주 안에서도 다른 모델들에 비해 극도로 싸짐  
  출력 토큰 100만 개당 가격을 보면 다음과 같음
  
  DeepSeek V4 Pro: $0.87
  
  Qwen 3.7 Max: $7.50
  
  Grok 4.3: $2.50
  
  GLM 1.5: $3.08
  
  Opus 4.7: $25.00
  
  GPT-5.5: $30.00
  - 캐시 읽기 비용까지 보면 실제로는 더 쌈  
    에이전트 워크플로에서는 이 비용이 지배적일 수 있는데, DeepSeek의 캐시 읽기 비용은 비교가 안 될 정도로 낮음  
    토큰 100만 개당 **$0.003626**이고, 목록에서 그다음으로 싼 것도 100만 개당 $0.2가 넘음  
    거의 100배 차이 규모임
  - 다음에 누가 “사용량 제한 때문에 징징대지 마라, 네 구독으로 회사가 손해 보고 있다”고 하면 이 댓글을 링크하겠음  
    제약 없이 돈을 태우도록 허락받지만 않는다면 **추론을 효율적으로** 하는 게 가능하다는 뜻임
  - 구독한 뒤에 **모델을 더 나쁘게 만들지도 않음**  
    구독 2개월 뒤 비용 절감을 위해 Opus를 GPT-3보다 못하게 만들어버리면 아무리 Opus가 좋아도 의미가 없음
  - GLM 5.1임

- V4 Pro 할인을 감안해도 **V4 Flash**가 달러당 성능이 가장 좋고, 에이전트형·도구 사용이 많은 작업에서는 전체 성능도 더 좋음  
  V4 Pro는 단발 추론에서 더 똑똑하지만 속도 차이가 큼  
  성능, 비용, 속도를 합치면 V4 Flash가 현재 우리 기준으로 단연 최고의 플래시 모델임
  
  데이터는 [https://gertlabs.com/rankings](<https://gertlabs.com/rankings>)에 있음
  - 내 사용 사례, 주로 아주 큰 **요약과 아이디어 추출**에서는 Pro에 비해 꽤 별로였음

- 이들의 **MLA 구조**는 표준 어텐션 대비 KV 캐시를 약 5~13배 줄임  
  그래서 단순히 시장점유율을 얻기 위한 가격 전쟁이 아니라, 실제로 추론 실행 비용이 더 낮음
  - 로컬 추론에도 **게임 체인저**임  
    일반 소비자용 플랫폼에서 긴 컨텍스트, 배치 추론, KV 캐시의 디스크 저장이 가능해짐
  - 맞음  
    이번 할인은 새 세대 모델에서 캐싱이 얼마나 효율적으로 작동하는지 확인하는 **출시 후 시장 실험**이었을 가능성이 큼

- 미국 호스팅 모델보다 중국 호스팅 모델에서 **우발적 데이터 유출**이 더 걱정됨  
  예를 들어 에이전트가 env 파일을 읽는 경우 같은 것임  
  중국 정부가 미국 정부나 회사보다 모든 대화를 스캔하고 유용한 정보를 저장할 가능성이 더 높다고 의심하는 게 틀린 걸까?
  
  이런 말이 편향적이고 외국인 혐오처럼 들릴 수 있어 이 댓글을 쓰는 것조차 망설였음  
  내가 틀렸다고 누가 설득해주면 좋겠음  
  DeepSeek 호스팅 뒤의 회사가 어떤 곳인지, 데이터 프라이버시를 존중해온 이력이 있는지 아는 사람이 있나?
  - 합리적이지 않은 걱정은 아님  
    그래서 대부분의 미국 회사들이 **AWS Bedrock**이나 AI 연구소를 선호하고, 보통 데이터 보존 없음 계약을 요청함  
    하지만 어디에 호스팅되든 유출 우려는 있고, 달라지는 건 유인 구조라고 봄
    
    예를 들어 연구소들도 모든 대화를 스캔하고, 기업용 ZDR 계약으로 보호되지 않는 데이터로 훈련함  
    법 집행기관은 유효한 영장이나 긴급 상황에서 모든 사용자 데이터 접근을 요청할 수 있음 [1]
    
    DeepSeek V4를 비공개로 써보고 싶다면 Tinfoil(tinfoil.sh)을 써볼 수 있음  
    모든 모델을 검증 가능한 보안 하드웨어 엔클레이브에서 호스팅해 추론을 종단 간 비공개로 만듦  
    고지하자면 나는 공동창업자 중 한 명임
    
    [1] [https://cdn.openai.com/trust-and-transparency/openai-law-enf...](<https://cdn.openai.com/trust-and-transparency/openai-law-enforcement-policy-v2024.07.pdf>)
  - **Azure** 같은 걸 통해 쓰면 됨  
    전체 모델을 호스팅하고 미국에서 제공함  
    이런 제공사는 더 있을 것임
    
    우리는 그렇게 쓰고 있고 아주 잘 됨
  - 그들이 그렇게 한다고 해도 놀라지 않을 것 같음  
    미국에 본사를 둔 모델들이 다른 정부를 위해 그렇게 한다고 해도 크게 놀라진 않을 듯함  
    데이터 기밀성에 관해서는 큰 기대를 하지 않음  
    Microsoft는 기업용 체크박스를 다 채우지만, Azure도 가끔 침해당함
  - 그런 일이 생길 **가능성은 0이 아니라고** 봄  
    베이징은 언제든 DeepSeek이 너무 강력해졌거나 주요 수출품이 됐다고 판단하고 개입할 수 있음  
    이미 그러지 않았다는 보장도 없음
    
    중국에 한정되지 않는 외국 행위자들이 미국의 여러 산업에 걸친 핵심 네트워크에 대규모로 침투해 있고, 적절한 시점에 악용하려고 기다린다는 보고가 많음  
    최첨단 모델도 또 하나의 공격 벡터이며, 생각해보면 훨씬 쉽게 악용될 수 있음
    
    사실 클라우드 호스팅 모델이라면 어디든 이런 가능성이 있음  
    모델을 만드는 회사가 의도했든, 악의적 행위자가 취약점을 악용했든 마찬가지임
  - 중국의 누군가가 굳이 나를 공격하러 올 만큼 내가 중요한 사람은 아님  
    그리고 DeepSeek은 사용자가 계속 플랫폼을 쓰도록 충분한 신뢰를 유지해야 함  
    모두의 암호화폐 지갑을 공격하는 키로거처럼 굴면 신뢰가 무너짐
    
    내가 중국 정부가 전략적으로 중요하다고 여길 일을 하고 있다면 당연히 걱정하겠지만, 나는 그런 일을 하지 않음
    
    오히려 이 나라의 기술 부자들이 LLM으로 나를 광범위하게 프로파일링하고, 중국의 실제 혹은 상상 속 사회신용점수보다 훨씬 더 디스토피아적인 무언가를 이 나라에서 만드는 게 더 걱정됨  
    미국의 개인인 당신이 중국 정부를 걱정해야 한다고 설득하려는 사람들이야말로 정말 걱정해야 할 사람들일 가능성이 큼

- copilot에 붙이려는 사람이 있다면, 예전에 연결을 처리하는 **프록시 스크립트**를 만들어뒀고 유용할 수 있음: [https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...](<https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f9365>)