▲GN⁺ 8달전 | parent | ★ favorite | on: OpenAI와 Anthropic는 추론에서 실제로 손해를 보고 있는가(martinalderson.com)Hacker News 의견 이 글의 수학적 계산은 여러 면에서 틀렸음 특히 prefill 단계가 대역폭에 묶여 있다는 가정은 잘못임 저자가 계산한 MFU를 풀어보면 13 PFLOPS/s가 나오는데, 이는 실제 하드웨어 최대 성능의 7배라서 불가능한 수치임 동시 요청 32개, GPU 8개 제한, attention 연산만이 병목이라는 가정 등도 모두 잘못된 전제임 HN에서 이 글을 비판하는 사람들이 근본적인 오류 대신 사소한 부분만 지적하는 게 아쉬움 이 글이 맞다면 OpenAI나 Anthropic이 추론에서 손해를 보고 있다는 주장도 근거가 약함 출력 토큰 비용 부분도 크게 틀렸음 실제로는 강력한 GPU 클러스터만 있으면 대규모 모델을 저렴하게 디코딩할 수 있음 예시로 4개월 전 기준 100만 출력 토큰당 0.2달러 수준이었고, 이후 B200 GPU와 코드 최적화로 더 싸졌음 수학이 틀렸다는 지적은 고맙지만, 그렇다면 정확한 수치도 같이 제시해주면 기대치를 조정하는 데 도움이 될 것 같음 나는 여러 번 모델링을 해봤는데, GPU 감가상각과 자원 활용 최적화에 따라 추론은 50% 이상의 마진이 가능하다고 봄 다만 모델 훈련 비용을 포함하느냐에 따라 결과가 크게 달라짐 훈련비를 자산화하지 않으면 마진이 좋지만, 감가상각해서 포함하면 수익성이 급격히 나빠짐 훈련을 왜 제외하냐는 의문이 있음 모델은 몇 년 쓰는 게 아니라 몇 달마다 새로 훈련해야 경쟁력을 유지할 수 있음 대규모 AI 연구소라면 높은 마진이 가능하지만, 일반 기업은 다름 예를 들어 DeepSeek 팀의 공개 자료를 보면, 8x H200 SXM에서 vLLM으로 12K tok/s 정도 나옴 하지만 100K~200K tok/s를 처리하려면 GPU가 엄청 필요하고, 대부분은 유휴 상태로 남음 따라서 100% 활용률, 무료 입력 처리, 네트워크 병목 없음 같은 가정은 현실적이지 않음 GPU를 5년 감가상각한다고 해도 시장 점유율 하락으로 활용률이 떨어지면 치명적일 수 있음 훈련비는 IFRS/GAAP 기준으로도 매출에 직접 귀속되는 비용이라서 결국 매출원가에 포함될 수밖에 없음 Sam Altman은 "우리는 추론에서 이익을 내고 있다, 훈련비만 빼면 매우 수익성이 좋다"고 말했음 Amodei도 비슷하게, 모델 하나를 회사로 보면 훈련비 1억 달러에 매출 2억 달러로 단위 모델은 흑자라고 설명했음 다만 동시에 더 비싼 차세대 모델을 훈련하느라 전체 회사는 적자 구조가 되는 것임 하지만 "훈련비를 빼면 흑자"라는 말은 사실상 모든 회사에 적용되는 진부한 표현이라 큰 의미는 없음 실제로는 OpenAI가 스타트업에 투자하고 크레딧을 제공하면서 돈이 순환되는 구조라, 진짜 수익성을 파악하기 어려움 NYT 팟캐스트에 따르면, Sam이 "우리는 추론만 보면 흑자"라고 말했지만 COO가 옆에서 애매한 반응을 보였다고 함 즉 실제로는 아직 추론만으로도 완전한 흑자는 아닐 수 있음 글에서 주장하는 것처럼 추론이 그렇게 싸다면 왜 초저가 API 제공자가 많지 않은지 의문임 현실적으로는 대부분의 저가 제공자는 작은 모델만 돌림 그렇다면 왜 DeepSeek-R1 같은 대형 모델은 싸게 못 쓰는지 궁금함 사실 이미 여러 API 제공자가 있고, 어떤 곳은 무료로 DeepSeek-R1을 제공하기도 함 DeepInfra 같은 곳도 있고, 실제 가격은 글에서 추정한 것보다 더 저렴함 하지만 모델 훈련, 인프라 구축, 인건비 등 막대한 고정비가 있어서 단순 추론 단가만으로는 수익성을 설명할 수 없음 직접 600B 모델을 돌리려면 GPU 수만 달러가 필요하고, 대부분 유휴 상태라서 비효율적임 그래서 모델 제공자가 GPU를 모아 공유 인프라로 제공하는 게 합리적임 GPU 아키텍처 경험자로서 보면, 긴 컨텍스트에서 attention 연산이 이론적으로는 O(n²) 로 늘어나지만 실제 병목은 메모리 전송 속도임 예를 들어 HBM 2+TB/s로도 코어당 요구 대역폭을 맞추기 어렵고, 충돌까지 고려하면 병목은 수천 배 더 심각해짐 이 글은 DeepSeek R1을 기준으로 계산했는데, DeepSeek은 비정상적으로 효율적이라 OpenAI/Anthropic 비용 추정에 적합하지 않음 DeepSeek 효율성은 MoE와 MLA attention 덕분임 하지만 OpenAI나 Google도 이미 비슷한 최적화를 오래전부터 적용했을 가능성이 큼 GPT OSS는 fp4까지 쓰는데 DeepSeek은 아직 아님 DeepSeek이 시장을 흔든 이유는 추론 효율보다 훈련비 500만 달러라는 주장 때문이었음 실제로 GPT-5나 Claude 4가 DeepSeek보다 효율이 떨어진다고 보긴 어려움 Amodei도 DeepSeek은 단순히 예상된 비용 절감 곡선의 일부일 뿐이라고 말했음 즉, 혁신적 돌파구라기보다는 중국 기업이 먼저 보여줬다는 점이 특별했던 것임 글에서 제시한 하루 토큰 수치가 너무 낮음 나는 하루 평균 3억~8억 토큰을 쓰고, 동료들도 1.5억~6억 토큰 정도임 또 프롬프트 캐싱을 고려하지 않았는데, 이는 추론량을 85~95% 줄여줌 모델과 KV 캐시에 어떤 양자화 방식을 쓰는지도 명시해야 정확한 계산이 가능함 ChatGPT Pro 가격도 잘못 언급됨 실제는 월 200달러이고, Sam Altman이 직접 "우리는 Pro 구독에서 손해를 보고 있다"고 밝힌 적 있음 사람들이 예상보다 훨씬 많이 쓰기 때문임 하지만 최근에는 "우리는 추론에서 흑자"라고 말했음 다만 비상장 기업이라 어떤 말이 진실에 가까운지 알기 어려움 개인적으로는 Sam 발언을 신뢰하지 않음 "우리 제품은 가치가 크다"는 마케팅 발언에 가깝다고 느낌 실제로는 상위 10% 사용자가 대부분의 사용량을 차지하는 파워로 분포할 가능성이 큼 따라서 Pro 구독자가 손해를 보는 구조일 수 있음 최근 보고에 따르면 Anthropic은 60% 마진, OpenAI는 무료 사용자 포함해 50% 마진 수준이라고 함 speculative decoding, 캐싱 등으로 비용이 더 줄어듦 글에서 가정한 370억 파라미터도 실제 모델 크기와 맞지 않음 다만 마진만으로는 전체 그림을 알 수 없음 Azure나 AWS가 대규모 할인을 제공하고 있을 가능성이 큼 Sam Altman은 여러 인터뷰에서 "훈련비만 빼면 흑자"라고 반복적으로 말했음 일부는 이를 근거로 "OpenAI가 요청마다 손해 본다"는 주장이 틀렸다고 봄 하지만 훈련이 공짜라면 누구나 할 수 있으니, 그 자체로는 의미 없는 가정임 Dario Amodei도 모델 단위로 보면 결국 흑자라고 설명했음 다만 Sam의 발언은 투자자 설득용일 수 있고, 실제 수익성은 불투명함
Hacker News 의견
이 글의 수학적 계산은 여러 면에서 틀렸음
특히 prefill 단계가 대역폭에 묶여 있다는 가정은 잘못임
저자가 계산한 MFU를 풀어보면 13 PFLOPS/s가 나오는데, 이는 실제 하드웨어 최대 성능의 7배라서 불가능한 수치임
동시 요청 32개, GPU 8개 제한, attention 연산만이 병목이라는 가정 등도 모두 잘못된 전제임
HN에서 이 글을 비판하는 사람들이 근본적인 오류 대신 사소한 부분만 지적하는 게 아쉬움
이 글이 맞다면 OpenAI나 Anthropic이 추론에서 손해를 보고 있다는 주장도 근거가 약함
출력 토큰 비용 부분도 크게 틀렸음
수학이 틀렸다는 지적은 고맙지만, 그렇다면 정확한 수치도 같이 제시해주면 기대치를 조정하는 데 도움이 될 것 같음
나는 여러 번 모델링을 해봤는데, GPU 감가상각과 자원 활용 최적화에 따라 추론은 50% 이상의 마진이 가능하다고 봄
다만 모델 훈련 비용을 포함하느냐에 따라 결과가 크게 달라짐
훈련비를 자산화하지 않으면 마진이 좋지만, 감가상각해서 포함하면 수익성이 급격히 나빠짐
훈련을 왜 제외하냐는 의문이 있음
대규모 AI 연구소라면 높은 마진이 가능하지만, 일반 기업은 다름
GPU를 5년 감가상각한다고 해도 시장 점유율 하락으로 활용률이 떨어지면 치명적일 수 있음
훈련비는 IFRS/GAAP 기준으로도 매출에 직접 귀속되는 비용이라서 결국 매출원가에 포함될 수밖에 없음
Sam Altman은 "우리는 추론에서 이익을 내고 있다, 훈련비만 빼면 매우 수익성이 좋다"고 말했음
Amodei도 비슷하게, 모델 하나를 회사로 보면 훈련비 1억 달러에 매출 2억 달러로 단위 모델은 흑자라고 설명했음
다만 동시에 더 비싼 차세대 모델을 훈련하느라 전체 회사는 적자 구조가 되는 것임
하지만 "훈련비를 빼면 흑자"라는 말은 사실상 모든 회사에 적용되는 진부한 표현이라 큰 의미는 없음
실제로는 OpenAI가 스타트업에 투자하고 크레딧을 제공하면서 돈이 순환되는 구조라, 진짜 수익성을 파악하기 어려움
NYT 팟캐스트에 따르면, Sam이 "우리는 추론만 보면 흑자"라고 말했지만 COO가 옆에서 애매한 반응을 보였다고 함
글에서 주장하는 것처럼 추론이 그렇게 싸다면 왜 초저가 API 제공자가 많지 않은지 의문임
현실적으로는 대부분의 저가 제공자는 작은 모델만 돌림
그렇다면 왜 DeepSeek-R1 같은 대형 모델은 싸게 못 쓰는지 궁금함
사실 이미 여러 API 제공자가 있고, 어떤 곳은 무료로 DeepSeek-R1을 제공하기도 함
DeepInfra 같은 곳도 있고, 실제 가격은 글에서 추정한 것보다 더 저렴함
하지만 모델 훈련, 인프라 구축, 인건비 등 막대한 고정비가 있어서 단순 추론 단가만으로는 수익성을 설명할 수 없음
직접 600B 모델을 돌리려면 GPU 수만 달러가 필요하고, 대부분 유휴 상태라서 비효율적임
GPU 아키텍처 경험자로서 보면, 긴 컨텍스트에서 attention 연산이 이론적으로는 O(n²) 로 늘어나지만
이 글은 DeepSeek R1을 기준으로 계산했는데, DeepSeek은 비정상적으로 효율적이라 OpenAI/Anthropic 비용 추정에 적합하지 않음
DeepSeek 효율성은 MoE와 MLA attention 덕분임
DeepSeek이 시장을 흔든 이유는 추론 효율보다 훈련비 500만 달러라는 주장 때문이었음
실제로 GPT-5나 Claude 4가 DeepSeek보다 효율이 떨어진다고 보긴 어려움
Amodei도 DeepSeek은 단순히 예상된 비용 절감 곡선의 일부일 뿐이라고 말했음
글에서 제시한 하루 토큰 수치가 너무 낮음
ChatGPT Pro 가격도 잘못 언급됨
실제는 월 200달러이고, Sam Altman이 직접 "우리는 Pro 구독에서 손해를 보고 있다"고 밝힌 적 있음
사람들이 예상보다 훨씬 많이 쓰기 때문임
하지만 최근에는 "우리는 추론에서 흑자"라고 말했음
개인적으로는 Sam 발언을 신뢰하지 않음
실제로는 상위 10% 사용자가 대부분의 사용량을 차지하는 파워로 분포할 가능성이 큼
최근 보고에 따르면 Anthropic은 60% 마진, OpenAI는 무료 사용자 포함해 50% 마진 수준이라고 함
speculative decoding, 캐싱 등으로 비용이 더 줄어듦
글에서 가정한 370억 파라미터도 실제 모델 크기와 맞지 않음
다만 마진만으로는 전체 그림을 알 수 없음
Sam Altman은 여러 인터뷰에서 "훈련비만 빼면 흑자"라고 반복적으로 말했음