1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개
  • DeepSeek-V4-Pro API 가격은 75% 할인 프로모션 종료 뒤에도 공식적으로 기존 가격의 1/4 수준으로 유지됨
  • 과금은 100만 토큰당 가격을 기준으로 하며, 입력 토큰과 출력 토큰 사용량에 따라 잔액에서 직접 차감됨
  • 지원 모델은 DeepSeek-V4-Flash와 DeepSeek-V4-Pro이며, 둘 다 비사고 모드와 사고 모드를 지원하고 기본값은 사고 모드임
  • 두 모델 모두 컨텍스트 길이는 1M, 최대 출력은 384K이며, 동시성 제한은 Flash 2500, Pro 500으로 다름
  • 모든 모델의 입력 캐시 적중 가격은 출시 가격의 1/10로 낮아졌고, 조정은 2026년 4월 26일 12:15 UTC부터 적용됨

과금 기준

  • 가격 단위는 100만 토큰당 요금이며, 토큰은 모델이 인식하는 가장 작은 텍스트 단위로 단어, 숫자, 문장부호가 될 수 있음
  • 청구 기준은 모델의 입력 토큰과 출력 토큰 총량임
  • 비용은 토큰 수 × 가격으로 계산되며, 충전 잔액 또는 지급 잔액에서 직접 차감됨
  • 충전 잔액과 지급 잔액이 모두 있으면 지급 잔액이 먼저 사용됨
  • 제품 가격은 변동될 수 있으며, DeepSeek은 가격 조정 권리를 보유함
  • 실제 사용량에 맞춰 충전하고, 최신 가격은 해당 페이지에서 정기적으로 확인하는 방식이 권장됨

모델과 가격

  • 지원 모델

    • DeepSeek-V4-FlashDeepSeek-V4-Pro가 제공됨
    • 두 모델 모두 비사고 모드와 사고 모드를 지원하며, 기본값은 사고 모드임
    • deepseek-chatdeepseek-reasoner 모델명은 향후 폐기될 예정임
    • 호환성을 위해 deepseek-chatdeepseek-v4-flash의 비사고 모드에, deepseek-reasonerdeepseek-v4-flash의 사고 모드에 각각 대응함
  • 엔드포인트와 기능

  • 컨텍스트와 출력 한도

    • 컨텍스트 길이는 1M임
    • 최대 출력은 384K임

100만 토큰당 가격

항목 DeepSeek-V4-Flash DeepSeek-V4-Pro
입력 토큰, 캐시 적중 $0.0028 $0.003625
입력 토큰, 캐시 미스 $0.14 $0.435
출력 토큰 $0.28 $0.87
동시성 제한 2500 500
  • DeepSeek-V4-Pro 할인 조정

    • DeepSeek-V4-Pro 가격은 75% 할인 가격으로 표시됨
    • 캐시 적중 입력 토큰 가격은 기존 $0.0145에서 $0.003625로 낮아짐
    • 캐시 미스 입력 토큰 가격은 기존 $1.74에서 $0.435로 낮아짐
    • 출력 토큰 가격은 기존 $3.48에서 $0.87로 낮아짐
    • 75% 할인 프로모션이 2026년 5월 31일 15:59 UTC에 종료된 뒤에도 DeepSeek-V4-Pro API 가격은 공식적으로 기존 가격의 1/4로 조정됨
  • 캐시 적중 가격 인하

    • 모든 모델의 입력 캐시 적중 가격은 출시 가격의 1/10로 인하됨
    • 이 가격 조정은 2026년 4월 26일 12:15 UTC부터 적용됨
  • 동시성 제한

    • DeepSeek-V4-Flash의 동시성 제한은 2500임
    • DeepSeek-V4-Pro의 동시성 제한은 500임
    • 동시성 제한의 자세한 내용은 Rate Limit & Isolation에서 확인 가능함

댓글과 토론

Hacker News 의견들
  • 자체 코딩 에이전트를 내놓으면 DeepSeek 모델을 주력으로 쓰기 시작할지도 모르겠음
    모델 오픈소스 공개, 연구 발표, 낮은 가격 유지처럼 “맞는 방향”의 일을 계속 하는 듯함

    • Claude Code에서 V4 Pro를 쓸 수 있음 1
      직접 써봤는데 인상적이었음

    • OpenCode와도 아주 잘 맞음
      우리 팀은 다른 구독 서비스의 5시간 제한에 자주 걸리는데, DeepSeek을 백업으로 두니 꽤 좋음
      50달러만 충전해뒀는데 영원히 안 줄어들 것 같은 느낌임

      아직 최첨단 모델을 완전히 대체할 정도는 아니지만, 백업으로는 확실히 훌륭함

    • 굳이 DeepSeek이 코딩 에이전트까지 제공해야 할 필요가 있나 싶음
      그냥 모델을 아무 기성 코딩 에이전트에 붙여 쓰면 됨
      개인적으로는 Pi를 선호하지만, 각자 잘 맞는 걸 쓰면 됨

    • 이번 주 초부터 내 코드베이스에서 중국 모델들을 테스트하기 시작했음
      아직 대화형 코딩보다는 이슈 분류, 버그 자동 수정, 로그 분석 등을 봤고, DeepSeek, Kimi, GLM, Qwen, MiMO를 GPT-5.5 high와 비교했으며 전부 Pi 하네스에서 설치 없이 돌렸음

      지금까지는 Kimi와 MiMO가 가장 유망해 보임
      엄밀하게 충분히 테스트한 건 아니지만, 실무의 일반적인 일상 작업에서는 이 모델들이 사람들이 생각하는 것만큼 뒤처져 있지 않을 수 있다는 첫인상임

      다만 “똑똑하게 일하기보다 열심히 일하는” 쪽에 가까워서, 비슷한 결과까지 더 느리게 도달하고 토큰도 더 많이 쓰지만 가격은 훨씬 낮음

    • 코딩 에이전트는 모델 제공사와 어느 정도 독립적인 편이 좋겠음
      제공사들이 품질, 기능, 가격을 너무 자주 바꾸기 때문에 그때마다 에이전트까지 갈아타고 싶지 않음

      상황이 좀 느려지고 안정화되길 기대하고 있음
      지금 당장 그래야 한다는 뜻은 아니지만, 그런 시점이 오면 좋겠음

  • DeepSeek V4를 아직 안 써봤다면 놓치고 있는 게 큼
    가격 때문에 믿기 어려울 정도로 좋음

    DeepSeek의 사고 연쇄는 읽어보면 정말 흥미로움
    OpenCode에서는 보여주지 않지만 직접 읽어보면 이 모델이 얼마나 저평가됐는지 놀랄 수 있음

    내 모델 사용량은 아주 적지만, 모델을 오픈소스로 공개하는 데 대한 감사와 전반적인 사회적 선이라고 보는 방향에 대한 지지 표시로 DeepSeek에 정기적으로 직접 돈을 내고 있음

    • 좋고 싸지만, 정치 이야기를 꺼내면 검열 규칙 같은 게 발동할 수 있음
      사고 과정을 보다가 갑자기 전부 지우고 아무 설명 없이 다른 주제로 바꾸자고 제안함
      뉴스 매체가 인민을 위해 봉사한다는 식의 일반론 메시지를 출력한 적도 있음

      둘 다 민감한 요청도, 불법적이거나 체제 전복적인 요청도 아니어서 놀랐음
      하지만 조금이라도 정치적인 주제였고 그걸로 충분했음
      서구의 검열은 보통 더 미묘해서, 오싹하면서도 묘하게 신선했음

    • 맞음, 모델이 정말 좋음
      회사에서는 Claude를 쓰고 개인적으로는 DeepSeek을 쓰는데, 나를 적극적으로 파산시키려 들지 않는 유일한 모델임

    • 특정 작업에는 V4 Pro를 좋아하지만, 코딩에서는 V4 Flash가 꽤 인상적이었음
      간결하고 핵심을 잘 짚으며 실수가 적은 편이고 꽤 빠름

    • opencode CLI에서는 추론 흔적이 보임
      설정 문제일 수도 있음

    • opencode에서 추론 표시를 켜고 끌 수 있음

  • 이 가격은 수상할 정도로 쌈
    같은 모델을 다른 제공사에서 호스팅하면 훨씬 비쌈 0
    그래서 DeepSeek이 다른 곳보다 훨씬 싸게 호스팅할 수 있거나, 비즈니스 모델이 다르거나 둘 중 하나인데 후자일 것 같음
    특히 개인정보 처리방침 1에서 “User Input”을 포함한 개인정보를 “서비스 개선 및 개발, 기술 훈련과 개선”에 쓸 수 있다고 하기 때문임

    • 어리석은 질문일 수 있지만, OpenRouter를 보면 DeepSeek을 제공하는 곳이 정말 미국, 싱가포르, 중국 밖에는 없나 싶음
      유럽이나 다른 서구 제공사가 제공하기에 너무 명백한 상품처럼 보임
      Mistral보다 훨씬 큰 도약일 거라 확신함

      이 모델들을 써보고 싶지만, 표준적인 법적 요구사항을 넘어서 내 데이터로 훈련하거나 저장하는 제공사는 피하고 싶음

    • 여러 요인이 같이 작용함
      추론 스택 효율 측면에서 많은 제공사는 기성 sglang / vllm / trtllm을 가져다 최선을 바라지만, DeepSeek 팀은 최적화 한계를 밀어붙이는 것으로 알려져 있음

      sglang과 vllm은 훌륭한 소프트웨어지만, DeepSeek의 희소 어텐션(DSA)을 보면 1.5년 전에 도입됐고(https://arxiv.org/abs/2512.02556), DeepSeek 3.2, GLM 5, DeepSeek V4에서 쓰였음
      이제야 주요 추론 엔진에서 최적화가 천천히 들어가기 시작함: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 등)
      물론 DS V4는 DSA 위에 모델 구조 최적화를 더했고, 오픈소스 추론 엔진이 이를 완전히 활용하려면 시간이 더 걸릴 것임

      개인정보 측면에서는 중국 밖에서 호스팅되는 추론에 사람들이 추가 비용을 낼 것이라는 베팅이 있음
      DeepSeek은 API 데이터를 모델 개선에 쓴다고 투명하게 밝히기 때문에 특히 그렇음

      그 외에도 규모(MoE에서는 매우 중요), 신뢰성, 부드러운 기업 고객 종속 같은 요소가 있음

      또한 암묵적 담합도 있을 가능성이 큼
      GLM 5와 GLM 5.1 가격을 보면 둘의 실행 비용은 같지만, 5.1이 훨씬 좋은 모델이고 Z.AI도 가격을 올렸기 때문에 제공사들이 5.1에 더 비싼 가격을 매겼음

    • 명백히 손해 보고 파는 중
      그래도 왜 안 되겠음
      손해를 보면서 시장점유율을 얻는 건 미국만의 특허가 아님

    • DeepSeek 창업자 Liang Wenfeng에 대해 충분히 모를 수도 있음
      그는 High-Flyer Quant의 창업자이기도 함

  • 캐싱 쪽이 더 궁금함
    “모든 모델에서 입력 캐시 적중 가격이 출시 가격의 1/10로 낮아졌고, 이 가격 조정은 2026/4/26 12:15 UTC부터 적용된다”고 되어 있음

    종료일이 없음
    현재 DeepSeek V4 Flash는 입력 가격의 2%, 이번 V4 Pro 가격으로는 0.8%라 경쟁사 대비 극도로 낮고 단위 경제성에도 영향을 줄 정도라 임시일 줄 알았음

    V4 Pro의 경우 캐싱을 고려한 실질 비용은 입력 토큰 100만 개당 약 $0.04임(OpenRouter 지표 기준: https://openrouter.ai/deepseek/deepseek-v4-pro)
    경쟁사의 소형 모델보다도 훨씬 쌈

    • DeepSeek V4의 KV 캐시는 강하게 압축된 희소 어텐션 구조 덕분에 매우 효율적임
      DSA만 쓰는 DeepSeek V3.2는 더 작은 모델이지만, 100만 컨텍스트 창에서 DS V4 Pro보다 메모리를 10배 더 씀

      또한 DeepSeek API는 캐시 적중률이 아주 좋음
      같은 작업량에서 오픈 가중치 모델을 제공하는 주요 서구 추론 제공사는 KV 캐시 적중률이 약 50%인데, DS API는 약 80%가 나옴

    • DeepSeek V4의 큰 포인트는 KV 캐시 크기가 크게 줄었다는 것임

    • Flash 자체는 아주 경쟁력 있는 모델은 아니고, 가격도 시장의 다른 모델들과 비슷한 범위임
      Flash 모델의 가장 직접적인 경쟁자는 아마 다음 정도임

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      그러니까 특별히 마법 같거나 획기적인 건 아님

    • Sonnet:
      Cache Read
      $0.30

      Gemini 3.5 flash:
      Cache Read
      $0.15

  • 엄청난 가성비
    한동안 GLM 5.1로 GLM Coding Plan Max를 써왔고 DeepSeek V4 Pro도 3주쯤 테스트했는데, 복잡한 코딩 작업에서는 GLM 5.1보다 낫다고 봄
    6,500만 토큰을 썼는데 이 가격으로 1.5달러가 나왔고 정말 쌈

    • DeepSeek은 다른 모델보다 토큰을 훨씬 많이 쓰는 것 같음
  • 대단함
    이러면 DeepSeek V4 Pro는 같은 범주 안에서도 다른 모델들에 비해 극도로 싸짐
    출력 토큰 100만 개당 가격을 보면 다음과 같음

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • 캐시 읽기 비용까지 보면 실제로는 더 쌈
      에이전트 워크플로에서는 이 비용이 지배적일 수 있는데, DeepSeek의 캐시 읽기 비용은 비교가 안 될 정도로 낮음
      토큰 100만 개당 $0.003626이고, 목록에서 그다음으로 싼 것도 100만 개당 $0.2가 넘음
      거의 100배 차이 규모임
    • 다음에 누가 “사용량 제한 때문에 징징대지 마라, 네 구독으로 회사가 손해 보고 있다”고 하면 이 댓글을 링크하겠음
      제약 없이 돈을 태우도록 허락받지만 않는다면 추론을 효율적으로 하는 게 가능하다는 뜻임
    • 구독한 뒤에 모델을 더 나쁘게 만들지도 않음
      구독 2개월 뒤 비용 절감을 위해 Opus를 GPT-3보다 못하게 만들어버리면 아무리 Opus가 좋아도 의미가 없음
    • GLM 5.1임
  • V4 Pro 할인을 감안해도 V4 Flash가 달러당 성능이 가장 좋고, 에이전트형·도구 사용이 많은 작업에서는 전체 성능도 더 좋음
    V4 Pro는 단발 추론에서 더 똑똑하지만 속도 차이가 큼
    성능, 비용, 속도를 합치면 V4 Flash가 현재 우리 기준으로 단연 최고의 플래시 모델임

    데이터는 https://gertlabs.com/rankings에 있음

    • 내 사용 사례, 주로 아주 큰 요약과 아이디어 추출에서는 Pro에 비해 꽤 별로였음
  • 이들의 MLA 구조는 표준 어텐션 대비 KV 캐시를 약 5~13배 줄임
    그래서 단순히 시장점유율을 얻기 위한 가격 전쟁이 아니라, 실제로 추론 실행 비용이 더 낮음

    • 로컬 추론에도 게임 체인저
      일반 소비자용 플랫폼에서 긴 컨텍스트, 배치 추론, KV 캐시의 디스크 저장이 가능해짐
    • 맞음
      이번 할인은 새 세대 모델에서 캐싱이 얼마나 효율적으로 작동하는지 확인하는 출시 후 시장 실험이었을 가능성이 큼
  • 미국 호스팅 모델보다 중국 호스팅 모델에서 우발적 데이터 유출이 더 걱정됨
    예를 들어 에이전트가 env 파일을 읽는 경우 같은 것임
    중국 정부가 미국 정부나 회사보다 모든 대화를 스캔하고 유용한 정보를 저장할 가능성이 더 높다고 의심하는 게 틀린 걸까?

    이런 말이 편향적이고 외국인 혐오처럼 들릴 수 있어 이 댓글을 쓰는 것조차 망설였음
    내가 틀렸다고 누가 설득해주면 좋겠음
    DeepSeek 호스팅 뒤의 회사가 어떤 곳인지, 데이터 프라이버시를 존중해온 이력이 있는지 아는 사람이 있나?

    • 합리적이지 않은 걱정은 아님
      그래서 대부분의 미국 회사들이 AWS Bedrock이나 AI 연구소를 선호하고, 보통 데이터 보존 없음 계약을 요청함
      하지만 어디에 호스팅되든 유출 우려는 있고, 달라지는 건 유인 구조라고 봄

      예를 들어 연구소들도 모든 대화를 스캔하고, 기업용 ZDR 계약으로 보호되지 않는 데이터로 훈련함
      법 집행기관은 유효한 영장이나 긴급 상황에서 모든 사용자 데이터 접근을 요청할 수 있음 1

      DeepSeek V4를 비공개로 써보고 싶다면 Tinfoil(tinfoil.sh)을 써볼 수 있음
      모든 모델을 검증 가능한 보안 하드웨어 엔클레이브에서 호스팅해 추론을 종단 간 비공개로 만듦
      고지하자면 나는 공동창업자 중 한 명임

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Azure 같은 걸 통해 쓰면 됨
      전체 모델을 호스팅하고 미국에서 제공함
      이런 제공사는 더 있을 것임

      우리는 그렇게 쓰고 있고 아주 잘 됨

    • 그들이 그렇게 한다고 해도 놀라지 않을 것 같음
      미국에 본사를 둔 모델들이 다른 정부를 위해 그렇게 한다고 해도 크게 놀라진 않을 듯함
      데이터 기밀성에 관해서는 큰 기대를 하지 않음
      Microsoft는 기업용 체크박스를 다 채우지만, Azure도 가끔 침해당함

    • 그런 일이 생길 가능성은 0이 아니라고
      베이징은 언제든 DeepSeek이 너무 강력해졌거나 주요 수출품이 됐다고 판단하고 개입할 수 있음
      이미 그러지 않았다는 보장도 없음

      중국에 한정되지 않는 외국 행위자들이 미국의 여러 산업에 걸친 핵심 네트워크에 대규모로 침투해 있고, 적절한 시점에 악용하려고 기다린다는 보고가 많음
      최첨단 모델도 또 하나의 공격 벡터이며, 생각해보면 훨씬 쉽게 악용될 수 있음

      사실 클라우드 호스팅 모델이라면 어디든 이런 가능성이 있음
      모델을 만드는 회사가 의도했든, 악의적 행위자가 취약점을 악용했든 마찬가지임

    • 중국의 누군가가 굳이 나를 공격하러 올 만큼 내가 중요한 사람은 아님
      그리고 DeepSeek은 사용자가 계속 플랫폼을 쓰도록 충분한 신뢰를 유지해야 함
      모두의 암호화폐 지갑을 공격하는 키로거처럼 굴면 신뢰가 무너짐

      내가 중국 정부가 전략적으로 중요하다고 여길 일을 하고 있다면 당연히 걱정하겠지만, 나는 그런 일을 하지 않음

      오히려 이 나라의 기술 부자들이 LLM으로 나를 광범위하게 프로파일링하고, 중국의 실제 혹은 상상 속 사회신용점수보다 훨씬 더 디스토피아적인 무언가를 이 나라에서 만드는 게 더 걱정됨
      미국의 개인인 당신이 중국 정부를 걱정해야 한다고 설득하려는 사람들이야말로 정말 걱정해야 할 사람들일 가능성이 큼

  • copilot에 붙이려는 사람이 있다면, 예전에 연결을 처리하는 프록시 스크립트를 만들어뒀고 유용할 수 있음: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...