# OpenAI와 Anthropic는 추론에서 실제로 손해를 보고 있는가

> Clean Markdown view of GeekNews topic #22786. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22786](https://news.hada.io/topic?id=22786)
- GeekNews Markdown: [https://news.hada.io/topic/22786.md](https://news.hada.io/topic/22786.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-29T09:58:27+09:00
- Updated: 2025-08-29T09:58:27+09:00
- Original source: [martinalderson.com](https://martinalderson.com/posts/are-openai-and-anthropic-really-losing-money-on-inference/)
- Points: 4
- Comments: 1

## Summary

**AI 추론**의 실제 **컴퓨팅 비용**은 일반적 인식과 달리 매우 저렴하며, 특히 입력 토큰(백만 개당 약 **$0.005**)과 출력 토큰(백만 개당 **$3+**) 간의 **비대칭적인 원가 구조** 덕분에 높은 **수익성**을 확보할 수 있습니다. **ChatGPT Pro, Claude Code** 등 주요 구독 및 API 서비스는 원가 대비 **최대 20배에 가까운 마진**을 기록하고 있으며, 대부분의 **코딩·문서 분석**과 같은 입력 중심 워크로드는 실제로 거의 '무료'에 가까운 비용 구조를 보입니다. 업계에서 제기된 **'AI 추론은 비싸다'는 주장**은 경쟁 억제 프레임에 가깝고, 오히려 **마진율이 소프트웨어 비즈니스와 유사한 견고한 수준**이라고 주장합니다.

## Topic Body

- 업계에서 흔히 제기되는 주장과 달리, **AI 추론 비용은 생각보다 저렴**하며 오히려 높은 수익성을 보장할 수 있음  
- 분석에 따르면 **입력 토큰 비용은 사실상 무시할 수준**(백만 토큰당 약 $0.005)인 반면, **출력 토큰 비용은 백만 토큰당 약 $3 이상**으로 1000배 차이가 발생함  
- 소비자 구독 플랜(예: ChatGPT Pro $20/월)은 실제 추론 원가 대비 **5~6배**, 개발자용 플랜(Claude Code)은 **10~20배**으로 채산성이 매우 높음  
- API 요금제는 원가 대비 **80~95% 이상 마진**을 남기며, 소프트웨어와 유사한 수준의 수익 구조를 형성함  
- 결국 추론은 ‘돈 먹는 하마’가 아니라, **입력 대비 출력 불균형 구조를 잘 활용**하는 경우 **매우 수익성 높은 비즈니스**임   
  
---  
### 서론  
- AI, 특히 **추론(inference)** 이 막대한 비용을 초래한다는 주장이 제기되나, 이에 대한 회의적 시각으로 경제성 분석 필요   
  - 저자는 대규모 프론티어 모델 운영 경험이 없으나, **클라우드 서비스**의 높은 처리량과 하이퍼스케일러 대비 베어메탈의 비용 구조에 대한 이해 바탕  
- 분석은 **냅킨 계산**(napkin math) 수준으로, 순수 컴퓨팅 비용에 초점을 둠  
  - H100 GPU 단일 비용은 시간당 $2로 설정, 실제 대형 AI 기업은 이보다 저렴한 가격으로 확보 가능  
  
### 가정  
- 분석은 **순수 컴퓨팅 비용**에만 초점, 모델 개선 없이 현재 모델의 유용성 기반으로 지속 불가능성 테스트  
  - DeepSeek R1 아키텍처(671B 총 파라미터, 37B 활성) 사용, Claude Sonnet 4 및 GPT-5와 유사한 성능 가정  
  
### H100을 활용한 프로덕션 환경   
- **프로덕션 설정**: 72개의 H100 GPU 클러스터, 시간당 $144 비용  
  - 배치 크기 32, 8 GPU당 텐서 병렬 처리로 9개 모델 인스턴스 동시 실행  
- **프리필 단계(입력 처리)**: H100의 3.35TB/s HBM 대역폭 기준, 초당 45회 포워드 패스 처리  
  - 배치당 32개 시퀀스(평균 1,000 토큰)로, 초당 144만 입력 토큰, 시간당 468억 입력 토큰 처리  
  - MoE 모델의 경우 전문가 라우팅으로 처리량 30~50% 감소 가능, 하지만 효율적 병렬 처리로 영향 최소화  
- **디코드 단계(출력 생성)**: 순차적 토큰 생성, 초당 1,440 출력 토큰, 시간당 4,670만 출력 토큰  
- **토큰당 순수 비용 계산**  
  - 입력 토큰: $144 ÷ 46.8억 = **백만 토큰당 $0.003** 수준  
  - 출력 토큰: $144 ÷ 4,670만 = **백만 토큰당 $3.08** 수준  
    - **비대칭성**: 입력 처리 대비 출력 생성의 비용 차이 **약 1000 배**  
  
### 컴퓨팅 병목 현상  
- 일반적으로 **메모리 대역폭**이 병목, 하지만 128k+ 긴 컨텍스트 시퀀스에서는 **어텐션 연산**이 병목으로 비용 2~10배 증가  
  - Claude Code는 **200k 토큰 제한**으로 저렴한 메모리 중심 체제 유지, 고비용 컴퓨팅 중심 시나리오 회피  
  - 긴 컨텍스트 창에 대해 추가 요금 부과는 경제적 변화 반영  
  
### 실제 사용자 경제성  
- **소비자 요금제**($20/월 ChatGPT Pro): 일일 10만 토큰(70% 입력, 30% 출력), 실제 비용 약 $3/월  
  - OpenAI의 **마진** 5~6배  
- **개발자 사용**(Claude Code Max 5, $100/월): 일일 200만 입력, 3만 출력 토큰, 실제 비용 약 $4.92/월, 마진 20.3배  
  - Max 10($200/월): 일일 1,000만 입력, 10만 출력 토큰, 실제 비용 약 $16.89/월, 마진 11.8배  
  - 코딩 에이전트는 입력 중심(저렴) 사용 패턴으로 경제성 극대화  
- **API 수익 마진**: 현재 가격($3/15 per 백만 토큰) 대비 실제 비용($0.01/3), **80~95% 마진**   
  
### 결론  
- 분석은 여러 가정에 기반, 오차 가능성 존재하나 3배 차이 가정 시에도 **수익성** 높음  
  - **입력 처리**는 백만 토큰당 $0.005로 저렴, 출력 생성은 $3+로 천 배 차이  
- 입력과 출력 토큰 비용의 **비대칭 구조**가 핵심이며, 이를 잘 활용하는 서비스는 높은 수익성을 달성 가능  
  - **입력 비중이 큰 워크로드**(코딩 도우미, 문서 분석, 연구 등) → 거의 무료에 가까운 원가 구조, 매우 높은 수익성  
  - **출력 비중이 큰 워크로드**(예: 비디오 생성) → 입력은 적고 출력은 수백만 토큰, 비용 구조가 불리해 고가 정책 불가피  
- "AI 추론은 지속 불가능할 만큼 비싸다"는 실제 원가 구조와 맞지 않음. 이건 기존 대형 사업자들의 **경쟁 억제** 전략일 가능성이 있음. 실제 마진 구조는 이미 매우 견고함  
- 과거 클라우드 컴퓨팅 비용 과장이 빅테크의 초과 이익을 정당화한 것처럼, 추론 비용 논의에서도 **과도한 ‘비용 공포 마케팅’** 이 작동할 위험이 있음  
  - 원가 구조에 대해 사실 기반으로 접근 필요

## Comments


### Comment 43093

- Author: neo
- Created: 2025-08-29T10:20:12+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45050415)   
- 이 글의 수학적 계산은 여러 면에서 틀렸음  
  - 특히 **prefill 단계**가 대역폭에 묶여 있다는 가정은 잘못임  
  - 저자가 계산한 MFU를 풀어보면 13 PFLOPS/s가 나오는데, 이는 실제 하드웨어 **최대 성능의 7배**라서 불가능한 수치임  
  - 동시 요청 32개, GPU 8개 제한, attention 연산만이 병목이라는 가정 등도 모두 잘못된 전제임  
  - HN에서 이 글을 비판하는 사람들이 근본적인 오류 대신 사소한 부분만 지적하는 게 아쉬움  
  - 이 글이 맞다면 OpenAI나 Anthropic이 추론에서 손해를 보고 있다는 주장도 근거가 약함  
  
  - 출력 토큰 비용 부분도 크게 틀렸음  
    - 실제로는 **강력한 GPU 클러스터**만 있으면 대규모 모델을 저렴하게 디코딩할 수 있음  
    - 예시로 4개월 전 기준 100만 출력 토큰당 0.2달러 수준이었고, 이후 **B200 GPU**와 코드 최적화로 더 싸졌음  
  
  - 수학이 틀렸다는 지적은 고맙지만, 그렇다면 **정확한 수치**도 같이 제시해주면 기대치를 조정하는 데 도움이 될 것 같음  
  
- 나는 여러 번 모델링을 해봤는데, GPU 감가상각과 **자원 활용 최적화**에 따라 추론은 50% 이상의 마진이 가능하다고 봄  
  - 다만 모델 **훈련 비용을 포함하느냐**에 따라 결과가 크게 달라짐  
  - 훈련비를 자산화하지 않으면 마진이 좋지만, 감가상각해서 포함하면 수익성이 급격히 나빠짐  
  
  - 훈련을 왜 제외하냐는 의문이 있음  
    - 모델은 몇 년 쓰는 게 아니라 몇 달마다 새로 훈련해야 경쟁력을 유지할 수 있음  
  
  - 대규모 AI 연구소라면 높은 마진이 가능하지만, 일반 기업은 다름  
    - 예를 들어 DeepSeek 팀의 공개 자료를 보면, 8x H200 SXM에서 vLLM으로 12K tok/s 정도 나옴  
    - 하지만 100K~200K tok/s를 처리하려면 GPU가 엄청 필요하고, 대부분은 **유휴 상태**로 남음  
    - 따라서 100% 활용률, 무료 입력 처리, 네트워크 병목 없음 같은 가정은 현실적이지 않음  
  
  - GPU를 5년 감가상각한다고 해도 **시장 점유율 하락**으로 활용률이 떨어지면 치명적일 수 있음  
  
  - 훈련비는 IFRS/GAAP 기준으로도 매출에 직접 귀속되는 비용이라서 결국 **매출원가**에 포함될 수밖에 없음  
  
- Sam Altman은 "우리는 추론에서 이익을 내고 있다, 훈련비만 빼면 매우 수익성이 좋다"고 말했음  
  - Amodei도 비슷하게, 모델 하나를 회사로 보면 훈련비 1억 달러에 매출 2억 달러로 **단위 모델은 흑자**라고 설명했음  
  - 다만 동시에 더 비싼 차세대 모델을 훈련하느라 전체 회사는 적자 구조가 되는 것임  
  
  - 하지만 "훈련비를 빼면 흑자"라는 말은 사실상 모든 회사에 적용되는 **진부한 표현**이라 큰 의미는 없음  
  
  - 실제로는 OpenAI가 스타트업에 투자하고 크레딧을 제공하면서 **돈이 순환**되는 구조라, 진짜 수익성을 파악하기 어려움  
  
  - NYT 팟캐스트에 따르면, Sam이 "우리는 추론만 보면 흑자"라고 말했지만 COO가 옆에서 **애매한 반응**을 보였다고 함  
    - 즉 실제로는 아직 추론만으로도 완전한 흑자는 아닐 수 있음  
  
- 글에서 주장하는 것처럼 추론이 그렇게 싸다면 왜 **초저가 API 제공자**가 많지 않은지 의문임  
  - 현실적으로는 대부분의 저가 제공자는 작은 모델만 돌림  
  - 그렇다면 왜 **DeepSeek-R1** 같은 대형 모델은 싸게 못 쓰는지 궁금함  
  
  - 사실 이미 여러 API 제공자가 있고, 어떤 곳은 **무료로 DeepSeek-R1**을 제공하기도 함  
  
  - DeepInfra 같은 곳도 있고, 실제 가격은 글에서 추정한 것보다 더 저렴함  
  
  - 하지만 모델 훈련, 인프라 구축, 인건비 등 **막대한 고정비**가 있어서 단순 추론 단가만으로는 수익성을 설명할 수 없음  
  
  - 직접 600B 모델을 돌리려면 GPU 수만 달러가 필요하고, 대부분 **유휴 상태**라서 비효율적임  
    - 그래서 모델 제공자가 GPU를 모아 **공유 인프라**로 제공하는 게 합리적임  
  
- GPU 아키텍처 경험자로서 보면, 긴 컨텍스트에서 attention 연산이 **이론적으로는 O(n²)** 로 늘어나지만  
  - 실제 병목은 **메모리 전송 속도**임  
  - 예를 들어 HBM 2+TB/s로도 코어당 요구 대역폭을 맞추기 어렵고, 충돌까지 고려하면 병목은 수천 배 더 심각해짐  
  
- 이 글은 DeepSeek R1을 기준으로 계산했는데, DeepSeek은 **비정상적으로 효율적**이라 OpenAI/Anthropic 비용 추정에 적합하지 않음  
  
  - DeepSeek 효율성은 **MoE와 MLA attention** 덕분임  
    - 하지만 OpenAI나 Google도 이미 비슷한 최적화를 오래전부터 적용했을 가능성이 큼  
    - GPT OSS는 **fp4**까지 쓰는데 DeepSeek은 아직 아님  
  
  - DeepSeek이 시장을 흔든 이유는 추론 효율보다 **훈련비 500만 달러**라는 주장 때문이었음  
  
  - 실제로 GPT-5나 Claude 4가 DeepSeek보다 효율이 떨어진다고 보긴 어려움  
  
  - Amodei도 DeepSeek은 단순히 **예상된 비용 절감 곡선**의 일부일 뿐이라고 말했음  
    - 즉, 혁신적 돌파구라기보다는 중국 기업이 먼저 보여줬다는 점이 특별했던 것임  
  
- 글에서 제시한 하루 토큰 수치가 너무 낮음  
  - 나는 하루 평균 **3억~8억 토큰**을 쓰고, 동료들도 1.5억~6억 토큰 정도임  
  - 또 **프롬프트 캐싱**을 고려하지 않았는데, 이는 추론량을 85~95% 줄여줌  
  - 모델과 KV 캐시에 어떤 **양자화 방식**을 쓰는지도 명시해야 정확한 계산이 가능함  
  
- ChatGPT Pro 가격도 잘못 언급됨  
  - 실제는 **월 200달러**이고, Sam Altman이 직접 "우리는 Pro 구독에서 손해를 보고 있다"고 밝힌 적 있음  
  - 사람들이 예상보다 훨씬 많이 쓰기 때문임  
  
  - 하지만 최근에는 "우리는 추론에서 흑자"라고 말했음  
    - 다만 비상장 기업이라 어떤 말이 진실에 가까운지 알기 어려움  
  
  - 개인적으로는 Sam 발언을 **신뢰하지 않음**  
    - "우리 제품은 가치가 크다"는 마케팅 발언에 가깝다고 느낌  
  
  - 실제로는 **상위 10% 사용자**가 대부분의 사용량을 차지하는 파워로 분포할 가능성이 큼  
    - 따라서 Pro 구독자가 손해를 보는 구조일 수 있음  
  
- 최근 보고에 따르면 Anthropic은 **60% 마진**, OpenAI는 무료 사용자 포함해 **50% 마진** 수준이라고 함  
  - speculative decoding, 캐싱 등으로 비용이 더 줄어듦  
  - 글에서 가정한 370억 파라미터도 실제 모델 크기와 맞지 않음  
  
  - 다만 마진만으로는 전체 그림을 알 수 없음  
    - Azure나 AWS가 **대규모 할인**을 제공하고 있을 가능성이 큼  
  
- Sam Altman은 여러 인터뷰에서 "훈련비만 빼면 흑자"라고 반복적으로 말했음  
  - 일부는 이를 근거로 "OpenAI가 요청마다 손해 본다"는 주장이 틀렸다고 봄  
  - 하지만 훈련이 공짜라면 누구나 할 수 있으니, 그 자체로는 의미 없는 가정임  
  - Dario Amodei도 모델 단위로 보면 결국 흑자라고 설명했음  
  - 다만 Sam의 발언은 **투자자 설득용**일 수 있고, 실제 수익성은 불투명함