v4 pro처럼 거대한 모델이 100만 토큰 출력당 4달러 정도인데, "최전선 연구소들이 추론을 미친 수준으로 보조금 때려서 돌린다"는 얘기가 정말 맞는지 잘 모르겠음 구독제도 충분히 수익이 날 것 같고, API 가격은 더 말할 것도 없어 보임
입력은 $1.74/M, 출력은 OpenRouter 기준 $3.48/M임
지금 DeepSeek의 추론 카드 부족 때문에도 가격이 높다는 설명이 있음
올해 하반기에 Ascend 950 컴퓨팅 카드가 나오면 Pro 가격이 크게 내려갈 거라고 보도자료에서 말했다고 함
운영비 기준으로는 흑자일 수 있지만, 현재 감가상각 스케줄까지 넣은 자본비 기준으로는 아직 아닐 수 있음
다만 그 비용 추정도 최근엔 예상보다 높아지는 분위기임
나도 비슷하게 봄 구독 서비스는 이미 이익이 나고, 보조금 얘기는 결국 기업 고객 API에서 더 높은 마진을 뽑아내기 위한 논리처럼 보임
그 지적은 맞지만, 아직 저 가격대를 맞추는 서구권 공급자는 없음
중국은 전력비도 더 저렴함
화려한 보도자료보다 개발자 문서가 먼저 나온 게 묘하게 훈훈함
맞음, 진짜 this is the way임
이걸 오픈소스라고 부르려면 학습 데이터와 학습 스크립트는 어디 있나 싶음
수정된 걸 보니 상위 댓글에서 "open source" 표현은 빠진 듯함
벌써 OpenRouter에 올라왔음
Pro는 입력 $1.74/m, 출력 $3.48/m이고, Flash는 입력 $0.14/m, 출력 $0.28/m임
모델이 공개됐고 꽤 인상적임 프런티어급 성능인데 비용은 훨씬 낮고, Opus 4.6보다 낫다고 느껴짐
이제는 굳이 모델을 Opus와 비교할 필요가 있나 싶음
Opus 이용자는 어차피 계속 최고일 거라고 믿고, 비이용자는 그 비용·락인·제한을 원치 않음
나 같은 비사용자는 여전히 일을 끝내주는 가장 싸고 빠른 모델을 쓰는데, 지금은 MiniMax M2.5가 그 역할임
가끔 더 비싼 최신 모델을 써봐도 결과가 비슷해서, 벤치마크로만 발전하는 것처럼 보이게 만드는 AI 업계 전체의 과장이 있는 것 아닌가 싶기도 함
Opus 4.7과 비교하면 어떤지 궁금함
이번 주 내내 Anthropic Opus 4.7 해커톤에 참여하면서 4.7을 집중적으로 써봤는데, 토큰은 4.6보다 훨씬 많이 먹어도 꽤 인상적이었음
정말 Opus 4.6보다 낫다는 건지, 아니면 그냥 벤치마크 최적화만 잘된 건지 궁금함
에이전트 하네스로 실제 코딩도 해봤는지 알고 싶음
코딩 능력이 Claude Code + Opus 4.6보다 낫다면 바로 갈아탈 생각임
또 시작이네 싶음
매일같이 Opus 4.6보다 낫다는 출시 글이 나오는데, 정작 deepseek 본인도 thinking 포함 기준으로 opus보다 낫다고 주장하진 않음
Dsv3는 벤치마크 뻥튀기형 모델은 아니었고, 벤치 밖 과제에서도 꽤 안정적이었으며 SoTA에는 못 미쳐도 괜찮았음
이번 모델도 비슷해 보임 최고 성능 바로 아래 수준이지만 차이는 크지 않고 가격은 훨씬 낮음
큰 모델은 현재 ds가 직접 $1.74 in / $3.48 out / $0.14 cache에 서빙 중이라 제공 가치 대비 아주 저렴함
작은 모델은 $0.14 in / $0.28 out / $0.028 cache라 사실상 너무 싸서 신경 안 써도 될 수준이고, 집에서 돌릴 만한 현실적인 후보가 될 수 있음
성능만 받쳐주면 haiku나 gemini-flash 계열과 충분히 경쟁 가능해 보임
공개된 벤치마크 숫자로 대충 계산해 보니, 둘 다 점수가 있는 20개 지표에서 총 20.1퍼센트포인트 차이가 남
평균 개선폭은 대략 2% 정도인데, 이게 엄청난 건지 시시한 건지 솔직히 애매함
Claude 4.6은 긴 문맥 질의응답, 특히 CorpusQA의 corpuses와 MRCR의 다중 라운드 대화에서 거의 10pp 더 좋았음
반면 DSv4는 IMOAnswerBench에서 무려 14pp, SimpleQA-Verified에서 12pp 더 높았음
Hacker News 의견들
v4 pro처럼 거대한 모델이 100만 토큰 출력당 4달러 정도인데, "최전선 연구소들이 추론을 미친 수준으로 보조금 때려서 돌린다"는 얘기가 정말 맞는지 잘 모르겠음
구독제도 충분히 수익이 날 것 같고, API 가격은 더 말할 것도 없어 보임
입력은 $1.74/M, 출력은 OpenRouter 기준 $3.48/M임
올해 하반기에 Ascend 950 컴퓨팅 카드가 나오면 Pro 가격이 크게 내려갈 거라고 보도자료에서 말했다고 함
다만 그 비용 추정도 최근엔 예상보다 높아지는 분위기임
구독 서비스는 이미 이익이 나고, 보조금 얘기는 결국 기업 고객 API에서 더 높은 마진을 뽑아내기 위한 논리처럼 보임
중국은 전력비도 더 저렴함
화려한 보도자료보다 개발자 문서가 먼저 나온 게 묘하게 훈훈함
수정된 걸 보니 상위 댓글에서 "open source" 표현은 빠진 듯함
벌써 OpenRouter에 올라왔음
Pro는 입력 $1.74/m, 출력 $3.48/m이고, Flash는 입력 $0.14/m, 출력 $0.28/m임
여기선 Api Error가 뜸
다른 모델은 전부 정상 동작함
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
중국에서 진짜 오픈소스가 나오는 건 반갑긴 함
숨은 의도가 있을 수 있다는 건 알지만 그래도 마음이 감
중국의 숨은 의도는 가정이지만, 미국 쪽은 노골적으로 드러나 있음
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
1.6T Pro base model을 Hugging Face에 올렸음
여기서 T급 모델 표기를 보는 건 처음임
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
모델이 공개됐고 꽤 인상적임
프런티어급 성능인데 비용은 훨씬 낮고, Opus 4.6보다 낫다고 느껴짐
Opus 이용자는 어차피 계속 최고일 거라고 믿고, 비이용자는 그 비용·락인·제한을 원치 않음
나 같은 비사용자는 여전히 일을 끝내주는 가장 싸고 빠른 모델을 쓰는데, 지금은 MiniMax M2.5가 그 역할임
가끔 더 비싼 최신 모델을 써봐도 결과가 비슷해서, 벤치마크로만 발전하는 것처럼 보이게 만드는 AI 업계 전체의 과장이 있는 것 아닌가 싶기도 함
이번 주 내내 Anthropic Opus 4.7 해커톤에 참여하면서 4.7을 집중적으로 써봤는데, 토큰은 4.6보다 훨씬 많이 먹어도 꽤 인상적이었음
에이전트 하네스로 실제 코딩도 해봤는지 알고 싶음
코딩 능력이 Claude Code + Opus 4.6보다 낫다면 바로 갈아탈 생각임
매일같이 Opus 4.6보다 낫다는 출시 글이 나오는데, 정작 deepseek 본인도 thinking 포함 기준으로 opus보다 낫다고 주장하진 않음
Dsv3는 벤치마크 뻥튀기형 모델은 아니었고, 벤치 밖 과제에서도 꽤 안정적이었으며 SoTA에는 못 미쳐도 괜찮았음
이번 모델도 비슷해 보임
최고 성능 바로 아래 수준이지만 차이는 크지 않고 가격은 훨씬 낮음
큰 모델은 현재 ds가 직접 $1.74 in / $3.48 out / $0.14 cache에 서빙 중이라 제공 가치 대비 아주 저렴함
작은 모델은 $0.14 in / $0.28 out / $0.028 cache라 사실상 너무 싸서 신경 안 써도 될 수준이고, 집에서 돌릴 만한 현실적인 후보가 될 수 있음
성능만 받쳐주면 haiku나 gemini-flash 계열과 충분히 경쟁 가능해 보임
평균 개선폭은 대략 2% 정도인데, 이게 엄청난 건지 시시한 건지 솔직히 애매함
Claude 4.6은 긴 문맥 질의응답, 특히 CorpusQA의 corpuses와 MRCR의 다중 라운드 대화에서 거의 10pp 더 좋았음
반면 DSv4는 IMOAnswerBench에서 무려 14pp, SimpleQA-Verified에서 12pp 더 높았음
가중치는 여기서 받을 수 있음
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
새 base 모델까지 나와서 정말 좋음
이 분야에 깊게 관심도 많고 실제로 많이 걸려 있기도 한데, 솔직히 이제는 전부 따라가려다 번아웃이 옴
AI 발전을 따라잡으려면 이제 AI가 AI 발전을 요약해줘야 하는 시점을 이미 한참 지난 느낌임
뉴스랑 비슷해서, 정말 알아야 할 때가 오면 누군가 먼저 알려주게 되어 있음
스포츠 챙기듯 보면 되고, 정상 자리가 바뀌는 것 자체를 받아들이면 그렇게 힘들진 않음
새 모델이 나와도 벤치마크 몇 개 좋아졌다는 식이고, 실제로 써보는 주관적 경험은 거의 그대로임
그 뒤로는 진짜 놀랄 만한 게 별로 없었고, 지금은 열성층만 관심 가지는 쪽으로 정체된 느낌도 듦
High Flyer가 이걸 만들려고 Anthropic을 노골적으로 베낀 것 자체보다도, GAB가 그 안에 xz급 이스터에그를 수십 개 넣을 시간을 충분히 벌어줬다는 쪽이 더 거슬림
방금 OpenRouter로 Pi Coding agent에서 시험해봤는데, read와 write 도구를 제대로 못 쓰는 경우가 자주 나옴
꽤 실망스럽고, "직접 호출을 쓰지 말고 항상 제공된 도구를 써라" 같은 프롬프트 말고 더 나은 해결책이 있는지 궁금함
아마 Pi와의 사전 테스트는 아직 충분히 못 했을 가능성이 큼