OpenAI와 Anthropic는 추론에서 실제로 손해를 보고 있는가
(martinalderson.com)- 업계에서 흔히 제기되는 주장과 달리, AI 추론 비용은 생각보다 저렴하며 오히려 높은 수익성을 보장할 수 있음
- 분석에 따르면 입력 토큰 비용은 사실상 무시할 수준(백만 토큰당 약 $0.005)인 반면, 출력 토큰 비용은 백만 토큰당 약 $3 이상으로 1000배 차이가 발생함
- 소비자 구독 플랜(예: ChatGPT Pro $20/월)은 실제 추론 원가 대비 5~6배, 개발자용 플랜(Claude Code)은 10~20배으로 채산성이 매우 높음
- API 요금제는 원가 대비 80~95% 이상 마진을 남기며, 소프트웨어와 유사한 수준의 수익 구조를 형성함
- 결국 추론은 ‘돈 먹는 하마’가 아니라, 입력 대비 출력 불균형 구조를 잘 활용하는 경우 매우 수익성 높은 비즈니스임
서론
- AI, 특히 추론(inference) 이 막대한 비용을 초래한다는 주장이 제기되나, 이에 대한 회의적 시각으로 경제성 분석 필요
- 저자는 대규모 프론티어 모델 운영 경험이 없으나, 클라우드 서비스의 높은 처리량과 하이퍼스케일러 대비 베어메탈의 비용 구조에 대한 이해 바탕
- 분석은 냅킨 계산(napkin math) 수준으로, 순수 컴퓨팅 비용에 초점을 둠
- H100 GPU 단일 비용은 시간당 $2로 설정, 실제 대형 AI 기업은 이보다 저렴한 가격으로 확보 가능
가정
- 분석은 순수 컴퓨팅 비용에만 초점, 모델 개선 없이 현재 모델의 유용성 기반으로 지속 불가능성 테스트
- DeepSeek R1 아키텍처(671B 총 파라미터, 37B 활성) 사용, Claude Sonnet 4 및 GPT-5와 유사한 성능 가정
H100을 활용한 프로덕션 환경
-
프로덕션 설정: 72개의 H100 GPU 클러스터, 시간당 $144 비용
- 배치 크기 32, 8 GPU당 텐서 병렬 처리로 9개 모델 인스턴스 동시 실행
-
프리필 단계(입력 처리): H100의 3.35TB/s HBM 대역폭 기준, 초당 45회 포워드 패스 처리
- 배치당 32개 시퀀스(평균 1,000 토큰)로, 초당 144만 입력 토큰, 시간당 468억 입력 토큰 처리
- MoE 모델의 경우 전문가 라우팅으로 처리량 30~50% 감소 가능, 하지만 효율적 병렬 처리로 영향 최소화
- 디코드 단계(출력 생성): 순차적 토큰 생성, 초당 1,440 출력 토큰, 시간당 4,670만 출력 토큰
-
토큰당 순수 비용 계산
- 입력 토큰: $144 ÷ 46.8억 = 백만 토큰당 $0.003 수준
- 출력 토큰: $144 ÷ 4,670만 = 백만 토큰당 $3.08 수준
- 비대칭성: 입력 처리 대비 출력 생성의 비용 차이 약 1000 배
컴퓨팅 병목 현상
- 일반적으로 메모리 대역폭이 병목, 하지만 128k+ 긴 컨텍스트 시퀀스에서는 어텐션 연산이 병목으로 비용 2~10배 증가
- Claude Code는 200k 토큰 제한으로 저렴한 메모리 중심 체제 유지, 고비용 컴퓨팅 중심 시나리오 회피
- 긴 컨텍스트 창에 대해 추가 요금 부과는 경제적 변화 반영
실제 사용자 경제성
-
소비자 요금제($20/월 ChatGPT Pro): 일일 10만 토큰(70% 입력, 30% 출력), 실제 비용 약 $3/월
- OpenAI의 마진 5~6배
-
개발자 사용(Claude Code Max 5, $100/월): 일일 200만 입력, 3만 출력 토큰, 실제 비용 약 $4.92/월, 마진 20.3배
- Max 10($200/월): 일일 1,000만 입력, 10만 출력 토큰, 실제 비용 약 $16.89/월, 마진 11.8배
- 코딩 에이전트는 입력 중심(저렴) 사용 패턴으로 경제성 극대화
- API 수익 마진: 현재 가격($3/15 per 백만 토큰) 대비 실제 비용($0.01/3), 80~95% 마진
결론
- 분석은 여러 가정에 기반, 오차 가능성 존재하나 3배 차이 가정 시에도 수익성 높음
- 입력 처리는 백만 토큰당 $0.005로 저렴, 출력 생성은 $3+로 천 배 차이
- 입력과 출력 토큰 비용의 비대칭 구조가 핵심이며, 이를 잘 활용하는 서비스는 높은 수익성을 달성 가능
- 입력 비중이 큰 워크로드(코딩 도우미, 문서 분석, 연구 등) → 거의 무료에 가까운 원가 구조, 매우 높은 수익성
- 출력 비중이 큰 워크로드(예: 비디오 생성) → 입력은 적고 출력은 수백만 토큰, 비용 구조가 불리해 고가 정책 불가피
- "AI 추론은 지속 불가능할 만큼 비싸다"는 실제 원가 구조와 맞지 않음. 이건 기존 대형 사업자들의 경쟁 억제 전략일 가능성이 있음. 실제 마진 구조는 이미 매우 견고함
- 과거 클라우드 컴퓨팅 비용 과장이 빅테크의 초과 이익을 정당화한 것처럼, 추론 비용 논의에서도 과도한 ‘비용 공포 마케팅’ 이 작동할 위험이 있음
- 원가 구조에 대해 사실 기반으로 접근 필요
Hacker News 의견
-
이 글의 수학적 계산은 여러 면에서 틀렸음
-
특히 prefill 단계가 대역폭에 묶여 있다는 가정은 잘못임
-
저자가 계산한 MFU를 풀어보면 13 PFLOPS/s가 나오는데, 이는 실제 하드웨어 최대 성능의 7배라서 불가능한 수치임
-
동시 요청 32개, GPU 8개 제한, attention 연산만이 병목이라는 가정 등도 모두 잘못된 전제임
-
HN에서 이 글을 비판하는 사람들이 근본적인 오류 대신 사소한 부분만 지적하는 게 아쉬움
-
이 글이 맞다면 OpenAI나 Anthropic이 추론에서 손해를 보고 있다는 주장도 근거가 약함
-
출력 토큰 비용 부분도 크게 틀렸음
- 실제로는 강력한 GPU 클러스터만 있으면 대규모 모델을 저렴하게 디코딩할 수 있음
- 예시로 4개월 전 기준 100만 출력 토큰당 0.2달러 수준이었고, 이후 B200 GPU와 코드 최적화로 더 싸졌음
-
수학이 틀렸다는 지적은 고맙지만, 그렇다면 정확한 수치도 같이 제시해주면 기대치를 조정하는 데 도움이 될 것 같음
-
-
나는 여러 번 모델링을 해봤는데, GPU 감가상각과 자원 활용 최적화에 따라 추론은 50% 이상의 마진이 가능하다고 봄
-
다만 모델 훈련 비용을 포함하느냐에 따라 결과가 크게 달라짐
-
훈련비를 자산화하지 않으면 마진이 좋지만, 감가상각해서 포함하면 수익성이 급격히 나빠짐
-
훈련을 왜 제외하냐는 의문이 있음
- 모델은 몇 년 쓰는 게 아니라 몇 달마다 새로 훈련해야 경쟁력을 유지할 수 있음
-
대규모 AI 연구소라면 높은 마진이 가능하지만, 일반 기업은 다름
- 예를 들어 DeepSeek 팀의 공개 자료를 보면, 8x H200 SXM에서 vLLM으로 12K tok/s 정도 나옴
- 하지만 100K~200K tok/s를 처리하려면 GPU가 엄청 필요하고, 대부분은 유휴 상태로 남음
- 따라서 100% 활용률, 무료 입력 처리, 네트워크 병목 없음 같은 가정은 현실적이지 않음
-
GPU를 5년 감가상각한다고 해도 시장 점유율 하락으로 활용률이 떨어지면 치명적일 수 있음
-
훈련비는 IFRS/GAAP 기준으로도 매출에 직접 귀속되는 비용이라서 결국 매출원가에 포함될 수밖에 없음
-
-
Sam Altman은 "우리는 추론에서 이익을 내고 있다, 훈련비만 빼면 매우 수익성이 좋다"고 말했음
-
Amodei도 비슷하게, 모델 하나를 회사로 보면 훈련비 1억 달러에 매출 2억 달러로 단위 모델은 흑자라고 설명했음
-
다만 동시에 더 비싼 차세대 모델을 훈련하느라 전체 회사는 적자 구조가 되는 것임
-
하지만 "훈련비를 빼면 흑자"라는 말은 사실상 모든 회사에 적용되는 진부한 표현이라 큰 의미는 없음
-
실제로는 OpenAI가 스타트업에 투자하고 크레딧을 제공하면서 돈이 순환되는 구조라, 진짜 수익성을 파악하기 어려움
-
NYT 팟캐스트에 따르면, Sam이 "우리는 추론만 보면 흑자"라고 말했지만 COO가 옆에서 애매한 반응을 보였다고 함
- 즉 실제로는 아직 추론만으로도 완전한 흑자는 아닐 수 있음
-
-
글에서 주장하는 것처럼 추론이 그렇게 싸다면 왜 초저가 API 제공자가 많지 않은지 의문임
-
현실적으로는 대부분의 저가 제공자는 작은 모델만 돌림
-
그렇다면 왜 DeepSeek-R1 같은 대형 모델은 싸게 못 쓰는지 궁금함
-
사실 이미 여러 API 제공자가 있고, 어떤 곳은 무료로 DeepSeek-R1을 제공하기도 함
-
DeepInfra 같은 곳도 있고, 실제 가격은 글에서 추정한 것보다 더 저렴함
-
하지만 모델 훈련, 인프라 구축, 인건비 등 막대한 고정비가 있어서 단순 추론 단가만으로는 수익성을 설명할 수 없음
-
직접 600B 모델을 돌리려면 GPU 수만 달러가 필요하고, 대부분 유휴 상태라서 비효율적임
- 그래서 모델 제공자가 GPU를 모아 공유 인프라로 제공하는 게 합리적임
-
-
GPU 아키텍처 경험자로서 보면, 긴 컨텍스트에서 attention 연산이 이론적으로는 O(n²) 로 늘어나지만
- 실제 병목은 메모리 전송 속도임
- 예를 들어 HBM 2+TB/s로도 코어당 요구 대역폭을 맞추기 어렵고, 충돌까지 고려하면 병목은 수천 배 더 심각해짐
-
이 글은 DeepSeek R1을 기준으로 계산했는데, DeepSeek은 비정상적으로 효율적이라 OpenAI/Anthropic 비용 추정에 적합하지 않음
-
DeepSeek 효율성은 MoE와 MLA attention 덕분임
- 하지만 OpenAI나 Google도 이미 비슷한 최적화를 오래전부터 적용했을 가능성이 큼
- GPT OSS는 fp4까지 쓰는데 DeepSeek은 아직 아님
-
DeepSeek이 시장을 흔든 이유는 추론 효율보다 훈련비 500만 달러라는 주장 때문이었음
-
실제로 GPT-5나 Claude 4가 DeepSeek보다 효율이 떨어진다고 보긴 어려움
-
Amodei도 DeepSeek은 단순히 예상된 비용 절감 곡선의 일부일 뿐이라고 말했음
- 즉, 혁신적 돌파구라기보다는 중국 기업이 먼저 보여줬다는 점이 특별했던 것임
-
-
글에서 제시한 하루 토큰 수치가 너무 낮음
- 나는 하루 평균 3억~8억 토큰을 쓰고, 동료들도 1.5억~6억 토큰 정도임
- 또 프롬프트 캐싱을 고려하지 않았는데, 이는 추론량을 85~95% 줄여줌
- 모델과 KV 캐시에 어떤 양자화 방식을 쓰는지도 명시해야 정확한 계산이 가능함
-
ChatGPT Pro 가격도 잘못 언급됨
-
실제는 월 200달러이고, Sam Altman이 직접 "우리는 Pro 구독에서 손해를 보고 있다"고 밝힌 적 있음
-
사람들이 예상보다 훨씬 많이 쓰기 때문임
-
하지만 최근에는 "우리는 추론에서 흑자"라고 말했음
- 다만 비상장 기업이라 어떤 말이 진실에 가까운지 알기 어려움
-
개인적으로는 Sam 발언을 신뢰하지 않음
- "우리 제품은 가치가 크다"는 마케팅 발언에 가깝다고 느낌
-
실제로는 상위 10% 사용자가 대부분의 사용량을 차지하는 파워로 분포할 가능성이 큼
- 따라서 Pro 구독자가 손해를 보는 구조일 수 있음
-
-
최근 보고에 따르면 Anthropic은 60% 마진, OpenAI는 무료 사용자 포함해 50% 마진 수준이라고 함
-
speculative decoding, 캐싱 등으로 비용이 더 줄어듦
-
글에서 가정한 370억 파라미터도 실제 모델 크기와 맞지 않음
-
다만 마진만으로는 전체 그림을 알 수 없음
- Azure나 AWS가 대규모 할인을 제공하고 있을 가능성이 큼
-
-
Sam Altman은 여러 인터뷰에서 "훈련비만 빼면 흑자"라고 반복적으로 말했음
- 일부는 이를 근거로 "OpenAI가 요청마다 손해 본다"는 주장이 틀렸다고 봄
- 하지만 훈련이 공짜라면 누구나 할 수 있으니, 그 자체로는 의미 없는 가정임
- Dario Amodei도 모델 단위로 보면 결국 흑자라고 설명했음
- 다만 Sam의 발언은 투자자 설득용일 수 있고, 실제 수익성은 불투명함