DeepSeek-V3.2 공개 - 오픈 대형 언어 모델

▲

GN⁺ 5달전 | parent | ★ favorite | on: DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다(huggingface.co)

Hacker News 의견

그들이 계속 비용 효율성을 개선하고, 공개적으로 발전 과정을 공유하는 점이 인상적임
이런 노력이 AI 독점을 막는 힘이 되길 바라는 마음임
- 하지만 실제로 누가 비용 효율성에서 “이기고 있는지”는 알 수 없음. 각 회사의 손익 구조를 모르기 때문임
- 공감하지만, 그들의 의도가 단일하다고는 생각하지 않음
- 단일 GPU에서 완전하게 돌아가기 전까지는 아무도 진정한 비용 효율성의 승자가 아님
- 경쟁사보다 훨씬 나은 모델을 만들 때까지 이런 공개를 계속할 것 같음. 하지만 정말로 우위를 점한 이후에도 계속 공개한다면 그때는 진심으로 감탄할 것 같음
- 다만 중국 공산당이 지원하는 기업을 순수한 의도로 보는 건 순진한 생각이라고 봄. 그 뒤에는 분명 다른 목적이 있을 것임
오픈 모델이 상용 모델과 경쟁할 수 있다면, Google·Anthropic·OpenAI 같은 회사들은 AI로 어떻게 돈을 벌 수 있을까 하는 의문이 듦
과거 오픈소스가 실패한 이유는 품질과 기능의 깊이에서 폐쇄형보다 뒤처졌기 때문인데, 지금은 성능이 정체 구간에 들어선 듯함
결국 가장 저렴한 에너지 인프라를 가진 쪽이 장기적으로 승자가 될 것 같음
- Google 내부 문서에 따르면 “AI/LLM에는 해자(moat) 가 없다”고 함. 하지만 모델을 직접 소유하지 않아도 SaaS나 MaaS 형태로 제공하면 여전히 큰 수익을 낼 수 있음
  예를 들어 Amazon이 MongoDB API를 서비스하듯, 결국 인프라 사용료로 돈을 버는 구조임
  대부분의 기업은 자체적으로 SOTA 모델을 호스팅할 여력이 없음. 이메일 서버조차 직접 운영하지 않는 현실을 보면 이해됨
  Google이 Transformer를 만들었고, OpenAI가 RLHF로 ChatGPT를 성공시켰지만, 지금은 다시 Google의 AI 요약 기능이 검색 상단을 차지하고 있음
  관련 문서: Google “We have no moat, and neither does OpenAI”
- 기업들은 OpenAI나 Anthropic을 신뢰함. 문제가 생겼을 때 책임을 전가할 대상이 있다는 점도 중요함
- 만약 우주에서 저렴한 에너지를 확보할 수 있다면, Musk가 AI 경쟁에서 큰 우위를 점할 수도 있음. 그는 달에 AI 위성 공장을 세우는 것에 집착하고 있음
- 결국 승부는 UX, 락인, 신뢰의 조합임. 개인 데이터에 깊이 접근하는 AI일수록 사람들은 익숙한 브랜드를 선호함
- 순수 모델 자체로는 수익이 나지 않음. 기존 수익화된 플랫폼에 모델을 통합하는 것이 핵심 가치임
이번 모델은 벤치마크뿐 아니라 추론 효율성도 크게 개선되었다고 함
관련 링크: Thomas Ip의 성능 비교
- 왜 그렇게 효율적인지 이유가 궁금함
DeepSeek-V3.2의 chat template이 크게 바뀌었음.
처음엔 새로운 포맷을 만든 줄 알았는데, 문법을 보니 사실상 Harmony 포맷과 동일해 보임
그렇다면 처음부터 Harmony 호환이라고 명시했으면 이해가 더 쉬웠을 것 같음
왜 32~512GB급 모델이 거의 없고, Mac Studio M4의 최대 RAM이 128GB인지 궁금함
- 농담이지만 “128GB면 충분하다”는 말이 떠오름. M5 Max에서는 더 큰 RAM을 기대함
이런 모델이 오픈소스로 공개되는 건 멋짐. 하지만 RTX 5090 네 장짜리 $20,000짜리 리그로도 충분히 빠르게 돌릴 수 있을까 의문임
- 512GB Mac Studio M3 Ultra에서는 초당 약 20토큰 정도 나온다고 함. 데모 영상
- 대형 모델은 클라우드에서 시간당 혹은 토큰당 과금으로 돌리는 게 현실적임. 직접 H100 랙을 사서 돌릴 수도 있지만, 클라우드 사용이 훨씬 효율적임
- 개인용 리그는 이제 비용 효율이 떨어짐. GPU, 전력, 냉각비까지 고려하면 RTX Pro 6000을 사는 게 낫다고 봄
- OpenRouter에서 DeepSeek-V3.2를 제공하는 두 곳(DeepSeek 포함) 모두 약 28tps로 돌리고 있음. OpenRouter 링크
  이 점이 오히려 원 댓글의 주장(소비자용으로는 느리다)을 뒷받침함
- 나도 6개의 RTX 3090을 가진 리그를 쓰는데, 685B 파라미터 모델은 너무 느림. 144B 이하 모델만 써야 쾌적함. GLM 4.5 Air가 특히 좋았음
논문 표 3을 보면 DS-Speciale이 거의 모든 테스트에서 1~2위를 차지하지만, 토큰 출력량이 50% 이상 많음
- 일부 논리 추론 문제는 더 긴 사고 체인이 필요함. 비용이 낮은 DeepSeek은 이 부분을 극대화할 수 있었음
  여러 해답을 병렬로 생성하고 최종 답을 선택하는 방식으로 추론 성능을 계산 자원으로 확장할 수 있음
몇 시간 써본 결과, 매우 탄탄하고 경쟁력 있는 모델임. GLM4.6보다 낫고 Kimi K2보다도 좋다고 느낌. v4가 기대됨
MIT 라이선스로 공개된 대형 프런티어급 모델이라는 점이 흥미로움
미국 AI 산업의 평가 기준을 잘 모르겠음. 중국 모델이 훨씬 저렴하면서도 거의 비슷한 성능을 내고 있음
- 중국 모델은 주로 텍스트 중심이고, 미국·유럽 모델은 이미지·음성·비디오까지 다루느라 비용이 큼
  또 벤치마크가 포화 상태라 격차가 작아 보이지만, 상위권에서 1% 차이는 실제로 큰 의미가 있음
  내가 만든 Metabench 리더보드에서도 중국 모델이 좋긴 하지만 여전히 상위권과의 차이는 존재함
  다만 추론 비용이 낮아 가성비 영역에서는 중국 모델이 강함
- 실제 배포에서는 인프라 속도가 관건임. OpenRouter에서 중국 모델은 Claude, GPT, Gemini만큼 빠르지 않음
  미국 기업들은 모델뿐 아니라 전 세계 저지연 인프라를 함께 판매하는 셈임. 그게 높은 기업가치를 설명함
  참고로 Cerebras는 매우 빠른 GLM 4.6을 제공 중임
- 서드파티 제공자들이 캐싱을 지원하지 않음. 캐싱이 활성화되면 미국 모델의 비용이 2배 수준으로 떨어져 훨씬 경쟁력 있어질 것임
- 미국 기업의 밸류에이션은 현재 성과보다 미래 가능성에 기반함. 중국 연구에 대한 이해가 부족한 상태에서의 투자임
  어쩌면 DeepSeek이 금지되고 미국 내에서 오픈소프트웨어가 차단될 거라는 가정이 깔려 있는 듯함
- 그래도 미국이 먼저 FOMO(놓칠까 두려움) 로 경쟁을 촉발하지 않았다면, 중국의 전략도 지금처럼 통하지 않았을 것임
  앞으로는 세부적인 엣지 케이스에서 프런티어 모델이 차별화될 가능성이 있음