DeepSeek v4 : 100만 토큰 컨텍스트를 지원

▲

GN⁺ 6시간전 | parent | ★ favorite | on: DeepSeek v4 : 100만 토큰 컨텍스트를 지원하는 고효율 대규모 언어 모델(huggingface.co)

Hacker News 의견들

v4 pro처럼 거대한 모델이 100만 토큰 출력당 4달러 정도인데, "최전선 연구소들이 추론을 미친 수준으로 보조금 때려서 돌린다"는 얘기가 정말 맞는지 잘 모르겠음
구독제도 충분히 수익이 날 것 같고, API 가격은 더 말할 것도 없어 보임
입력은 $1.74/M, 출력은 OpenRouter 기준 $3.48/M임
- 지금 DeepSeek의 추론 카드 부족 때문에도 가격이 높다는 설명이 있음
  올해 하반기에 Ascend 950 컴퓨팅 카드가 나오면 Pro 가격이 크게 내려갈 거라고 보도자료에서 말했다고 함
- 운영비 기준으로는 흑자일 수 있지만, 현재 감가상각 스케줄까지 넣은 자본비 기준으로는 아직 아닐 수 있음
  다만 그 비용 추정도 최근엔 예상보다 높아지는 분위기임
- 나도 비슷하게 봄
  구독 서비스는 이미 이익이 나고, 보조금 얘기는 결국 기업 고객 API에서 더 높은 마진을 뽑아내기 위한 논리처럼 보임
- 그 지적은 맞지만, 아직 저 가격대를 맞추는 서구권 공급자는 없음
  중국은 전력비도 더 저렴함
화려한 보도자료보다 개발자 문서가 먼저 나온 게 묘하게 훈훈함
- 맞음, 진짜 this is the way임
- 이걸 오픈소스라고 부르려면 학습 데이터와 학습 스크립트는 어디 있나 싶음
  수정된 걸 보니 상위 댓글에서 "open source" 표현은 빠진 듯함
벌써 OpenRouter에 올라왔음
Pro는 입력 $1.74/m, 출력 $3.48/m이고, Flash는 입력 $0.14/m, 출력 $0.28/m임
- 여기선 Api Error가 뜸
  다른 모델은 전부 정상 동작함
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
중국에서 진짜 오픈소스가 나오는 건 반갑긴 함
숨은 의도가 있을 수 있다는 건 알지만 그래도 마음이 감
- 미국 회사들은 모델 접근 비용을 내는 데도 과할 정도의 신원 확인을 요구하고, 데이터를 저장·분석·학습에 쓰고, 요청만 오면 당국에 넘길 수도 있다고 대놓고 말함
  중국의 숨은 의도는 가정이지만, 미국 쪽은 노골적으로 드러나 있음
- 중국 연구소들이 왜 모델을 공개하는지 이해하려면 이 글이 도움 됨
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- 오픈 웨이트일 뿐임
1.6T Pro base model을 Hugging Face에 올렸음
여기서 T급 모델 표기를 보는 건 처음임
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

모델이 공개됐고 꽤 인상적임
프런티어급 성능인데 비용은 훨씬 낮고, Opus 4.6보다 낫다고 느껴짐
- 이제는 굳이 모델을 Opus와 비교할 필요가 있나 싶음
  Opus 이용자는 어차피 계속 최고일 거라고 믿고, 비이용자는 그 비용·락인·제한을 원치 않음
  나 같은 비사용자는 여전히 일을 끝내주는 가장 싸고 빠른 모델을 쓰는데, 지금은 MiniMax M2.5가 그 역할임
  가끔 더 비싼 최신 모델을 써봐도 결과가 비슷해서, 벤치마크로만 발전하는 것처럼 보이게 만드는 AI 업계 전체의 과장이 있는 것 아닌가 싶기도 함
- Opus 4.7과 비교하면 어떤지 궁금함
  이번 주 내내 Anthropic Opus 4.7 해커톤에 참여하면서 4.7을 집중적으로 써봤는데, 토큰은 4.6보다 훨씬 많이 먹어도 꽤 인상적이었음
- 정말 Opus 4.6보다 낫다는 건지, 아니면 그냥 벤치마크 최적화만 잘된 건지 궁금함
  에이전트 하네스로 실제 코딩도 해봤는지 알고 싶음
  코딩 능력이 Claude Code + Opus 4.6보다 낫다면 바로 갈아탈 생각임
- 또 시작이네 싶음
  매일같이 Opus 4.6보다 낫다는 출시 글이 나오는데, 정작 deepseek 본인도 thinking 포함 기준으로 opus보다 낫다고 주장하진 않음
  Dsv3는 벤치마크 뻥튀기형 모델은 아니었고, 벤치 밖 과제에서도 꽤 안정적이었으며 SoTA에는 못 미쳐도 괜찮았음
  이번 모델도 비슷해 보임
  최고 성능 바로 아래 수준이지만 차이는 크지 않고 가격은 훨씬 낮음
  큰 모델은 현재 ds가 직접 $1.74 in / $3.48 out / $0.14 cache에 서빙 중이라 제공 가치 대비 아주 저렴함
  작은 모델은 $0.14 in / $0.28 out / $0.028 cache라 사실상 너무 싸서 신경 안 써도 될 수준이고, 집에서 돌릴 만한 현실적인 후보가 될 수 있음
  성능만 받쳐주면 haiku나 gemini-flash 계열과 충분히 경쟁 가능해 보임
- 공개된 벤치마크 숫자로 대충 계산해 보니, 둘 다 점수가 있는 20개 지표에서 총 20.1퍼센트포인트 차이가 남
  평균 개선폭은 대략 2% 정도인데, 이게 엄청난 건지 시시한 건지 솔직히 애매함
  Claude 4.6은 긴 문맥 질의응답, 특히 CorpusQA의 corpuses와 MRCR의 다중 라운드 대화에서 거의 10pp 더 좋았음
  반면 DSv4는 IMOAnswerBench에서 무려 14pp, SimpleQA-Verified에서 12pp 더 높았음
가중치는 여기서 받을 수 있음
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  새 base 모델까지 나와서 정말 좋음
이 분야에 깊게 관심도 많고 실제로 많이 걸려 있기도 한데, 솔직히 이제는 전부 따라가려다 번아웃이 옴
AI 발전을 따라잡으려면 이제 AI가 AI 발전을 요약해줘야 하는 시점을 이미 한참 지난 느낌임
- 따라가려 하지 않는 게 나음
  뉴스랑 비슷해서, 정말 알아야 할 때가 오면 누군가 먼저 알려주게 되어 있음
- 핵심 플레이어는 거의 안 바뀜
  스포츠 챙기듯 보면 되고, 정상 자리가 바뀌는 것 자체를 받아들이면 그렇게 힘들진 않음
- 체감상 GPT-4 이후로는 계속 비슷비슷함
  새 모델이 나와도 벤치마크 몇 개 좋아졌다는 식이고, 실제로 써보는 주관적 경험은 거의 그대로임
  그 뒤로는 진짜 놀랄 만한 게 별로 없었고, 지금은 열성층만 관심 가지는 쪽으로 정체된 느낌도 듦
High Flyer가 이걸 만들려고 Anthropic을 노골적으로 베낀 것 자체보다도, GAB가 그 안에 xz급 이스터에그를 수십 개 넣을 시간을 충분히 벌어줬다는 쪽이 더 거슬림
방금 OpenRouter로 Pi Coding agent에서 시험해봤는데, read와 write 도구를 제대로 못 쓰는 경우가 자주 나옴
꽤 실망스럽고, "직접 호출을 쓰지 말고 항상 제공된 도구를 써라" 같은 프롬프트 말고 더 나은 해결책이 있는지 궁금함
- 나온 지 막 얼마 안 됐으니 조금 기다려보는 게 좋겠음
  아마 Pi와의 사전 테스트는 아직 충분히 못 했을 가능성이 큼