OpenAI와 Anthropic는 추론에서 실제로 손해

▲

GN⁺ 8달전 | parent | ★ favorite | on: OpenAI와 Anthropic는 추론에서 실제로 손해를 보고 있는가(martinalderson.com)

Hacker News 의견

이 글의 수학적 계산은 여러 면에서 틀렸음
- 특히 prefill 단계가 대역폭에 묶여 있다는 가정은 잘못임
- 저자가 계산한 MFU를 풀어보면 13 PFLOPS/s가 나오는데, 이는 실제 하드웨어 최대 성능의 7배라서 불가능한 수치임
- 동시 요청 32개, GPU 8개 제한, attention 연산만이 병목이라는 가정 등도 모두 잘못된 전제임
- HN에서 이 글을 비판하는 사람들이 근본적인 오류 대신 사소한 부분만 지적하는 게 아쉬움
- 이 글이 맞다면 OpenAI나 Anthropic이 추론에서 손해를 보고 있다는 주장도 근거가 약함
- 출력 토큰 비용 부분도 크게 틀렸음
  - 실제로는 강력한 GPU 클러스터만 있으면 대규모 모델을 저렴하게 디코딩할 수 있음
  - 예시로 4개월 전 기준 100만 출력 토큰당 0.2달러 수준이었고, 이후 B200 GPU와 코드 최적화로 더 싸졌음
- 수학이 틀렸다는 지적은 고맙지만, 그렇다면 정확한 수치도 같이 제시해주면 기대치를 조정하는 데 도움이 될 것 같음
나는 여러 번 모델링을 해봤는데, GPU 감가상각과 자원 활용 최적화에 따라 추론은 50% 이상의 마진이 가능하다고 봄
- 다만 모델 훈련 비용을 포함하느냐에 따라 결과가 크게 달라짐
- 훈련비를 자산화하지 않으면 마진이 좋지만, 감가상각해서 포함하면 수익성이 급격히 나빠짐
- 훈련을 왜 제외하냐는 의문이 있음
  - 모델은 몇 년 쓰는 게 아니라 몇 달마다 새로 훈련해야 경쟁력을 유지할 수 있음
- 대규모 AI 연구소라면 높은 마진이 가능하지만, 일반 기업은 다름
  - 예를 들어 DeepSeek 팀의 공개 자료를 보면, 8x H200 SXM에서 vLLM으로 12K tok/s 정도 나옴
  - 하지만 100K~200K tok/s를 처리하려면 GPU가 엄청 필요하고, 대부분은 유휴 상태로 남음
  - 따라서 100% 활용률, 무료 입력 처리, 네트워크 병목 없음 같은 가정은 현실적이지 않음
- GPU를 5년 감가상각한다고 해도 시장 점유율 하락으로 활용률이 떨어지면 치명적일 수 있음
- 훈련비는 IFRS/GAAP 기준으로도 매출에 직접 귀속되는 비용이라서 결국 매출원가에 포함될 수밖에 없음
Sam Altman은 "우리는 추론에서 이익을 내고 있다, 훈련비만 빼면 매우 수익성이 좋다"고 말했음
- Amodei도 비슷하게, 모델 하나를 회사로 보면 훈련비 1억 달러에 매출 2억 달러로 단위 모델은 흑자라고 설명했음
- 다만 동시에 더 비싼 차세대 모델을 훈련하느라 전체 회사는 적자 구조가 되는 것임
- 하지만 "훈련비를 빼면 흑자"라는 말은 사실상 모든 회사에 적용되는 진부한 표현이라 큰 의미는 없음
- 실제로는 OpenAI가 스타트업에 투자하고 크레딧을 제공하면서 돈이 순환되는 구조라, 진짜 수익성을 파악하기 어려움
- NYT 팟캐스트에 따르면, Sam이 "우리는 추론만 보면 흑자"라고 말했지만 COO가 옆에서 애매한 반응을 보였다고 함
  - 즉 실제로는 아직 추론만으로도 완전한 흑자는 아닐 수 있음
글에서 주장하는 것처럼 추론이 그렇게 싸다면 왜 초저가 API 제공자가 많지 않은지 의문임
- 현실적으로는 대부분의 저가 제공자는 작은 모델만 돌림
- 그렇다면 왜 DeepSeek-R1 같은 대형 모델은 싸게 못 쓰는지 궁금함
- 사실 이미 여러 API 제공자가 있고, 어떤 곳은 무료로 DeepSeek-R1을 제공하기도 함
- DeepInfra 같은 곳도 있고, 실제 가격은 글에서 추정한 것보다 더 저렴함
- 하지만 모델 훈련, 인프라 구축, 인건비 등 막대한 고정비가 있어서 단순 추론 단가만으로는 수익성을 설명할 수 없음
- 직접 600B 모델을 돌리려면 GPU 수만 달러가 필요하고, 대부분 유휴 상태라서 비효율적임
  - 그래서 모델 제공자가 GPU를 모아 공유 인프라로 제공하는 게 합리적임
GPU 아키텍처 경험자로서 보면, 긴 컨텍스트에서 attention 연산이 이론적으로는 O(n²) 로 늘어나지만
- 실제 병목은 메모리 전송 속도임
- 예를 들어 HBM 2+TB/s로도 코어당 요구 대역폭을 맞추기 어렵고, 충돌까지 고려하면 병목은 수천 배 더 심각해짐
이 글은 DeepSeek R1을 기준으로 계산했는데, DeepSeek은 비정상적으로 효율적이라 OpenAI/Anthropic 비용 추정에 적합하지 않음
- DeepSeek 효율성은 MoE와 MLA attention 덕분임
  - 하지만 OpenAI나 Google도 이미 비슷한 최적화를 오래전부터 적용했을 가능성이 큼
  - GPT OSS는 fp4까지 쓰는데 DeepSeek은 아직 아님
- DeepSeek이 시장을 흔든 이유는 추론 효율보다 훈련비 500만 달러라는 주장 때문이었음
- 실제로 GPT-5나 Claude 4가 DeepSeek보다 효율이 떨어진다고 보긴 어려움
- Amodei도 DeepSeek은 단순히 예상된 비용 절감 곡선의 일부일 뿐이라고 말했음
  - 즉, 혁신적 돌파구라기보다는 중국 기업이 먼저 보여줬다는 점이 특별했던 것임
글에서 제시한 하루 토큰 수치가 너무 낮음
- 나는 하루 평균 3억~8억 토큰을 쓰고, 동료들도 1.5억~6억 토큰 정도임
- 또 프롬프트 캐싱을 고려하지 않았는데, 이는 추론량을 85~95% 줄여줌
- 모델과 KV 캐시에 어떤 양자화 방식을 쓰는지도 명시해야 정확한 계산이 가능함
ChatGPT Pro 가격도 잘못 언급됨
- 실제는 월 200달러이고, Sam Altman이 직접 "우리는 Pro 구독에서 손해를 보고 있다"고 밝힌 적 있음
- 사람들이 예상보다 훨씬 많이 쓰기 때문임
- 하지만 최근에는 "우리는 추론에서 흑자"라고 말했음
  - 다만 비상장 기업이라 어떤 말이 진실에 가까운지 알기 어려움
- 개인적으로는 Sam 발언을 신뢰하지 않음
  - "우리 제품은 가치가 크다"는 마케팅 발언에 가깝다고 느낌
- 실제로는 상위 10% 사용자가 대부분의 사용량을 차지하는 파워로 분포할 가능성이 큼
  - 따라서 Pro 구독자가 손해를 보는 구조일 수 있음
최근 보고에 따르면 Anthropic은 60% 마진, OpenAI는 무료 사용자 포함해 50% 마진 수준이라고 함
- speculative decoding, 캐싱 등으로 비용이 더 줄어듦
- 글에서 가정한 370억 파라미터도 실제 모델 크기와 맞지 않음
- 다만 마진만으로는 전체 그림을 알 수 없음
  - Azure나 AWS가 대규모 할인을 제공하고 있을 가능성이 큼
Sam Altman은 여러 인터뷰에서 "훈련비만 빼면 흑자"라고 반복적으로 말했음
- 일부는 이를 근거로 "OpenAI가 요청마다 손해 본다"는 주장이 틀렸다고 봄
- 하지만 훈련이 공짜라면 누구나 할 수 있으니, 그 자체로는 의미 없는 가정임
- Dario Amodei도 모델 단위로 보면 결국 흑자라고 설명했음
- 다만 Sam의 발언은 투자자 설득용일 수 있고, 실제 수익성은 불투명함