토큰 가격이 점점 비싸지고 있음

(ethanding.substack.com)

13P by GN⁺ 5달전 | ★ favorite | 댓글 4개

LLM 토큰 비용이 매년 10배씩 감소한다는 기대와 달리, AI 구독 서비스는 수익성이 점점 더 악화되는 현상이 발생
최신 LLM 모델에 대한 수요는 항상 최상위(SOTA, State-of-the-art) 모델로 집중되어, “구형” 모델의 가격 하락은 실질적 원가 절감으로 이어지지 않음
모델 성능이 오를수록 사용되는 토큰량이 기하급수적으로 증가하여, 단가 하락을 상쇄하고 오히려 전체 비용이 치솟는 구조
무제한 구독 요금제 실험(예: Claude Code $200/월)도 헤비 유저의 토큰 폭주로 인해 지속 불가능
사용량 기반 과금 외에는 장기적으로 지속 가능한 모델이 없으나, 스타트업 경쟁 구도와 소비자 저항으로 인해 현실적 도입이 어려움
지속 가능한 수익 모델로 전환하지 않으면 대부분 스타트업이 결국 파산 위험에 직면함

AI 구독 비즈니스, 토큰 단가 하락에도 왜 적자만 늘어날까

LLM 가격 하락의 허상

창업자들은 "토큰 단가가 10배씩 내려가니, 잠시만 버티면 고마진 구조로 전환될 것"이라는 VC 플레이북을 믿고 초기에 원가 수준 또는 적자로 구독 상품을 운영함
실제로 GPT-3.5처럼 구형 모델의 토큰 단가는 10배 이상 하락했지만, 사용자와 시장의 수요는 항상 가장 최신·최고 성능(SOTA) 모델에 쏠림
실제로는 18개월이 지난 시점에서 마진이 개선되지 않고 오히려 악화되는 상황
구형 모델 가격 인하가 체감되는 것은 "어제 신문"처럼 이미 시장의 관심 밖인 경우뿐임

토큰 사용량의 폭발적 증가

모델 성능이 올라가면서, 한 번의 작업이 소비하는 토큰량이 기하급수적으로 증가하는 현상이 발생
과거엔 1,000토큰이면 끝나던 작업이, 이제는 100,000토큰을 소모할 수 있음
예전에는 한 문장 질의에 한 문장 응답으로 처리됐지만, 요즘은 복잡한 리서치나 루프, 오케스트레이션으로 10~20분씩 연속 동작하면서 방대한 토큰 사용이 이루어짐
AI로 더 깊은 연구/분석을 시키다 보니 "한 번 실행에 20분, 하루 24시간 연속 실행" 등으로 개별 유저당 일평균 사용량이 급증
- 예를 들어, 매일 $1 상당의 'deep research'를 1회만 사용해도 $20 구독 요금으로는 수지가 맞지 않음
단가 하락분이 전체 토큰 소모량 증가로 상쇄되어, $20/월 요금제로는 하루 한 번의 $1짜리 작업도 감당이 불가한 상황 도래

무제한 요금제의 실패

Anthropic의 Claude Code 등은 $200/월 무제한 요금제, 토큰 자동 최적화, 사용자 PC 활용 등 다양한 비용 절감책을 도입해 봄
하지만 일부 파워유저가 한 달 100억 토큰(“워 앤드 피스” 12,500권 분량)에 육박, 이는 사용자들이 자동화, 반복 작업, 루프 등을 활용해 폭발적 토큰 사용을 이끌었기 때문
- "AI 사용량이 인간의 시간과 분리되어 API가 24시간 돌며 토큰 폭주"로 이어짐
엔지니어링 혁신에도 불구하고 결국 요금제를 롤백함
결론: 이제 무제한 구독 모델은 불가능하며, 수식 자체가 성립하지 않음

산업 전체가 직면한 딜레마

구독제 방식을 계속 고집하면 수익성 악화 및 붕괴 위험이 커짐
AI 기업들은 모두 사용량 기반 과금(usage-based pricing)만이 해답임을 알지만, 구독 기반 경쟁자 등장 시 사용자 이탈 위험이 큼
“죄수의 딜레마” 구조로 인해 모두가 파워유저 보조금 경쟁에 내몰림
Cursor, Replit 등도 “성장 우선, 수익성은 미래의 문제”로 접근하지만, 결국 언젠가 수익성 문제로 구조조정 불가피

현실적 해결책 3가지

1. 사용량 기반 과금
- 초반부터 정직한 경제 모델을 도입하면 원가를 넘지 않는 수익 구조 설계 가능. 장기적으로는 유일하게 지속 가능한 모델
- 단, 소비자는 측정 요금(미터제)을 극도로 기피, 대중적 성공 어렵다는 한계 존재
2. 높은 전환 비용 기반의 기업 시장 공략
- 높은 전환 비용을 가진 엔터프라이즈 고객(예: 대기업, 금융기관) 대한 B2B 영업을 통해 한번 시장에 진입하면, 해지가 거의 불가능하고 마진이 높음
- 시스템 오브 레코드(SOR, CRM/ERP/EHR 등) 분야가 대표적 성공 사례 (예: Goldman Sachs 4만 엔지니어용 도입 등)
3. 수직 통합 통한 부가가치 창출(Vertical Integration)
- Replit처럼 LLM inference 자체는 손해를 보는 ‘미끼 상품’으로 제공하고, 그 위에 탑재한 호스팅, 데이터베이스, 배포, 모니터링 등 여러 서비스로 수익을 창출
- AI 사용량을 늘려 인프라 시장으로 이어지는 구조 구축
앞으로도 토큰 단가 하락은 이어지겠지만, 사용자 기대와 사용량도 기하급수적으로 증가할 전망
구독제-성장전략만 고수하는 기업들은 결국 '고비용의 장례식'을 치르게 될 위험성 높음

요약

“내년엔 토큰이 10배 더 싸질 것”이라는 낙관론만으로는 비즈니스가 유지되지 않음
- 사용자는 항상 더 높은 기대치와 사용량을 요구
모델 발전=사용량 폭증=원가 증가라는 공식이 성립하고 있으며, 결국 지속 가능한 AI 비즈니스는 사용량 과금, 대형 기업 계약, 수직 통합을 통한 새로운 구조로 전환해야 함
- 사업 지속을 원한다면 '네오클라우드' 전략 등 새로운 구조적 접근 필요

▲

mhj5730 5달전 [-]

캐싱이 어려운 점 + MCP를 활용한 자동화로 무제한 사용은 진짜 말그대로 무제한 사용까지 향할 수 있습니다. ..무제한 데이터 요금제가 없는 통신사처럼 일 ~300회, 일 ~ 2000회 등등.. 옛날 문자메시지와 같은 요금제로 향할것 같기도 하네요.

답변달기

▲

doolayer 5달전 [-]

인터넷처럼 양 자체는 무제한이지만(종량제가 걸리는 경우도 있긴 하지만) 속도에 제한을 거는 방식으로 가면 좋을 것 같습니다. 구현이야 뭐 지금도 배치처리 방식이 있는 것처럼 연산자원과 사용자에게 도달하는 자원은 분리가 가능하죠. 결국 공급자 입장에서도 예측가능성을 확보하고, 사용자도 합리적인 금액과 속도를 보장받을 수 있다면 윈윈 아니겠습니까? 일부 과다 사용자의 경우, 별도 계약을 통해 전용 자원을 할당하는 식으로 가야겠죠.

답변달기

▲

GN⁺ 5달전 [-]

Hacker News 의견

기사에서 인용된 내용을 보면, 소비자들은 종량제 과금(미터 요금제)을 싫어하고, 놀라운 금액의 청구서보다 차라리 무제한 요금제에 과지불하는 쪽을 선호한다고 말함 하지만 실상은 복합적인 부분이 있음 Amazon에서 비용을 예측했다고 생각하는 순간 갑자기 청구서가 크게 나오는 경우가 많음 그 이유는 '한 달에 X달러가 넘으면 자동으로 꺼지게 해 달라'고 설정할 방법이 없기 때문임 이런 식의 '서프라이즈 네트 30' 구조는 늘 예상 가능한 비용처럼 느끼지만 결국엔 예기치 않은 추가 비용이 돌아옴 하지만 종량제가 유저가 사용량을 명확히 알 수 있고, 예산 초과를 막는 최대한도를 지정할 수 있다면 오히려 좋은 방식이 될 수도 있음 AI 기업 입장에서는 '사용한 토큰 / 전체 토큰' 바 차트, 응답당 토큰 사용량, 초과 전 예상 응답 횟수 제공 등, 사용자가 예산을 관리할 수 있게 하면 됨 갑작스러운 청구는 절대 하지 않는 것이 중요함 그러나 기업들은 이런 토큰과 달러 정보를 숨기는 걸 선호함, 마치 도박 사이트들이 '코퍼레이트 벅스'를 USD로 바로 연결시키지 않는 것과 유사함
- 인프라로서의 B2B 서비스(AWS 등)에는 종량제가 적합하다고 생각함 기업이 성장할수록 인프라 사용량과 요금이 비례 증가하니 예측이 가능함, 인프라는 일단 세팅하면 신경 쓸 일이 거의 없음 하지만 AI 같은 업무/도구로 쓰는 상황에서는 종량제 과금이 큰 걸림돌임 이런 상황에서 종량제는 아예 제품 사용을 억제하는 원인이 되고, 매번 쓸 때마다 비용 대비 효과를 분석해야하는 큰 피로도가 생김 만약 업무에서 쓴다면, 관리자 결재를 계속 받아야 할 수도 있음 생산성 향상을 노리는 툴이 이런 장벽을 만들어선 안됨 거의 대부분의 사람은 250번씩 “이 동작이 3달러 가치가 있을까?” 고민하지 않음 종량제라면 그냥 안 쓰게 됨
- 기업들이 토큰을 달러로 전환하는 정보를 숨기려는 게 불만임 GitHub의 Copilot 에이전트 트라이얼을 해보고 있는데, 요금이 정말 불투명함 “프리미엄 요청”이란 용어만 자꾸 나오고, 내 대시보드에서는 실시간 사용량 및 한도를 확인할 수 없음 UI상에 프리미엄 요청 이야기를 클릭하면 문서로 연결되지만, 실제 한도나 요금 대시보드를 명확히 안내하지 않음
- Amazon(AWS)에서는 더 문제가 심각함 AWS의 “더 저렴하다”는 유혹과 달리, 실제로는 그 대안보다 저렴해야만 전환이 의미 있음 그렇지만 많은 회사는 개발자 시간을 들여 인프라를 바꾸지 않음 기회비용이 크고, 리스크(수익, 개발 시간, 경쟁 등)가 있으므로, 투자 효과가 아주 크지 않으면 개발 시간 낭비로 여겨지기 때문임 만약 인프라 구조가 대안보다 실제로 더 비싸게 돼버렸다면, 이미 개발자 시간을 썻으니 그 손해를 감수할 수밖에 없음 아직 토큰 기반 요금제에서는 이런 전환/기회비용 부담 요소가 크게 느껴지진 않음 쉽게 기존 방식으로 돌아갈 수 있기 때문임 하지만 앞으로는 이 구조가 바뀔 거라고 예상함
- Amazon의 가격 구조는 매우 애매하고 복잡하게 느껴짐 예를 들어, 왜 데이터베이스 비용이 계속 오락가락하는지 알 방법이 없는 경우도 있음
- 정의된 프로세스에 대해선 종량제가 정말 유용함 AWS가 마음에 드는 점은, 비용을 실제 비즈니스와 일치시킬 수 있기 때문임 예전엔 이게 힘들었고 내부 정치 이슈도 많았음 세일즈 담당자가 직접 임원에게 장비 필요성을 어필해서, 전혀 원하지도 않은 네트워크 장비까지 떠안게 되는 경우가 있었음 하지만 사용자 입장에선 이런 세밀한 비용 관리가 좋지 않음 왜냐하면 생산성과 직접 연관 없는 각종 지표로 사용자를 계속 평가하게 되기 때문임 90년대 인턴 시절에 장거리 전화 하나 승인받으려면 관료주의에 시달림 승인자가 20분 통화가 적절했는지 일일이 평가하고, 한도 초과하면 내가 비용 부담함 재미없는 경험임 사용자 대상 AI에는 고정 요금제가 정답임 내 생산성이 20% 증가해서 월 $200로 ChatGPT Pro를 쓰면 연 $16k 가치임 굉장히 저렴한 투자임
기사의 주장들이 나에게는 논리적으로 다가오지 않음 “최신 모델이 나오면 99% 수요가 바로 넘어간다”라는 내용은 동의하기 어려움 오히려 Sonnet 4가 Opus 4보다 더 많이 사용되고 있음, 실제로 최고 성능 모델이 아닌 저렴하고 평범한 모델을 쓰는 유저가 많음 사용성, 속도, 친숙도 등 다양한 이유로 SOTA가 아닌 다양한 모델이 함께 쓰임 모델 랭킹 참고: https://openrouter.ai/rankings 그리고 Opus에서 Sonnet으로, 무거울 때 Haiku로 바꾸는 걸 마치 오토스케일처럼 설명하는데, 실제로 해당 동작이 모델 가중치에 내장되어 있지는 않을 거라 생각함 전반적으로 글에서 요금제 문제는 클라우드 호스팅 시절에도 겪었던 이슈를 재현하는 것으로 보임 - 많은 사용자는 월정액으로 성능이 떨어져도 편리하게 쓰고, 일부 API 사용자(헤비유저/기업)는 종량제로 사용함, 이 구조는 이미 충분히 수익성이 보장됨 - 대부분의 AI 스타트업은 B2B임, B2C가 아님
- “최고의 모델이 무엇인가”에 대한 논쟁이 활발해진 현 상황에 크게 공감함 가끔 Mistral을 메인 LLM으로 사용하는데, ChatGPT/Gemini/Claude와 비교해도 실사용면에서 큰 차이를 못 느낌 그리고 속도가 훨씬 빠름 이미 상업용 LLM 경쟁은 수익 대비 효과가 크지 않은 상태임 Deepseek 같은 사례가 비용이 낮고 품질까지 올라갈 수 있음을 보여줌 이제 곧 가격 경쟁이 본격화될 것으로 봄 이 때문에 Mixture of Experts 접근이나 특화 모델 경쟁이 부각되고 있는 것 같음 값은 낮추고 정밀도를 높이는 쪽으로 발전 중임
“클로드 코드가 원래 무제한 $200/mo를 제공하다가 롤백했다”라는 얘기는 사실과 다름 플랜 이름 자체가 20x 플랜이고, 5시간 세션 제한 및 월별 50세션 제한(강제는 아니지만) 등, 애초에 제한이 명확히 있었음 나 역시 사용하면서 부족하다고 느낀 적이 거의 없음, 오히려 아직도 한도가 높다고 생각함 그러므로 진실을 말해도 논거에 전혀 해가 되지 않을 정도임
- 맞음, Max 플랜은 본래부터 무제한이라고 안내하지 않았음 이런 오해를 너무 많이 보고, 듣고 있음 반복적으로 떠오르다보니 이제는 다들 무제한이라 생각해버리는 현상임
현실적으로 큰 문제는, 지금 우리가 구분 없는 모델 사용(모든 문제에 최고 사양 일반화 모델 투입)으로 모기를 대포로 때리는 상황임 모든 문제에 SOTA 모델이 필요하지 않음 앞으로 사용하는 서비스가 여러 모델 “번들화”로 나아가면서, 훨씬 더 효율적인 사용 그래프가 나올 것임
- 아직 그 어떤 모델도 주요 작업에 완벽히 믿고 맡길 수준에는 못 미침 심지어 최고 성능의 모델들도 가끔은 이상하게 동작함, 내 뇌는 항상 일을 자체 처리해서 위임에 머리 쓸 필요가 없음 그러니 AI에 맡겨서 “확실한 이득”이 있어야만 실제로 맡김 나는 내가 잘하는 게 우선임, AI 회사는 최고 성능을 광고하지만, 사용자는 AI의 “최악의 순간”이 중요한 지표임. SOTA만이 항상 수요가 있는 이유임 AI는 ‘최악의 순간’ 평가를 받게 됨 – 아무리 잘해도 한 번의 실수가 치명타임, 실제로 사람이 최악의 실수로 해고 되는 것과 같음 완벽한 케이스(연구실 환경) 성능이 중요한 게 아님, 실사용에서 망가졌을 때가 더 중요함. 글에서 이 부분이 잘 드러남
- 아직까지는 가장 어려운 작업들이 해결되지 않음, 낮은 정확도 답변을 받아들일만한 작업은 많지 않음 일부 텍스트 파이프라인 작업엔 괜찮을 수 있지만, 사용자 대상 거의 모든 용도는 높은 품질 요구함
- 이 부분을 많은 이들이 간과함 7b, 32b GPU 모델들도 많은 작업에서 충분히 잘 동작함 그리고 구형 하드웨어에서도 돌아감 아직은 LLM 성능 전체가 오르는 하이프 단계라 시간이 지나면 대형 모델의 성능 향상이 정체되고 현실적인 선택들이 시작될 것임
- 다양한 모델을 실험해보는 게 가치가 있음 최근 내가 만든 간단한 챗봇 시스템은 상황별로 5종의 모델을 다르게 씀 다양하게 모델을 교체하고 섞어 쓰는 게 비용, 사용자 경험, 품질에 엄청난 차이를 냄
- 만약 Claude Opus가 Sonnet을 가이드해주는 옵션이 있으면 거의 모든 대화에 사용하겠음 수동으로 이렇게 하려면 번거롭고 흐름이 끊겨서 결국 Opus만 계속 쓰게 됨 병렬 처리 덕분에 입력 비용이 낮으니, 프롬프트가 커져도 큰 부담이 아니라고 생각함
어떤 AI 회사가 태스크를 간단한 작업은 더 '둔한' 모델에게 위임할 수 있는 시스템을 만들었으면 좋겠음 복잡한 작업이 Opus 수준 모델을 요구하지만, 그 안에는 사실 3.5 Sonnet으로도 충분한 일들이 수두룩하게 포함되어 있음 Opus는 단순한 작업과 어려운 부분을 구분해서, 쉬운 것은 3.5 Sonnet 여러 개로 분산 맡기면 될 것임 너무 당연한 아이디어 같아서 이미 다들 만들고 있을 거라 생각함
- Claude code는 실제로 Sonnet과 Haiku 두 모델을 자동으로 활용함 세션 종료 시 토큰, 비용 등 각종 통계를 안내해줌 아마 세션 중에도 이런 정보를 확인할 방법이 있을 것으로 기대함
- 예를 들어 프롬프트에서 각 서브태스크별로 1~10 등급의 “권장 모델 레벨”을 뱉게 하면 어떨까 싶음
지난 1~2년간 나는 API를 직접 결제해서, 오픈소스 프론트엔드(LibreChat 등)로 다양한 모델에 접속해 사용해왔음 가끔씩만 사용하기엔 아주 잘 맞아서, 몇 달에 한 번 $10 정도만 충전하면 충분했음 내가 쓰는 토큰 양은 대부분의 패키지 요금제보다 훨씬 적다보니, 이 방식이 훨씬 저렴하다고 판단함 그런데 Claude Code 등 다양한 툴을 써보기 시작하니 토큰이 눈에 띄게 빠르게 소진됨 어제는 15분 만에 $5치 토큰을 써버림 Code 툴은 LLM에게 단순 질문할 때와 방식이 매우 다르다는 것은 알지만, 이렇게까지 차이가 클 줄은 몰랐음 많은 토큰 사용이 실제로는 눈에 잘 안 띄어서(점점 커지는 컨텍스트나 도구 오케스트레이션에 감춰져 있음) 더 놀람
- Claude Code가 평소보다 훨씬 더 넓은 컨텍스트, 반복적 처리를 많이 써서 이런 현상이 발생함
- Deepseek API $20로 1년 가까이 충분히 썼음(중국 회사라는 건 상관없음) 속도는 느리지만 독립 호스팅 Deepseek 모델 중에서는 품질이 오히려 더 낫다고 느낌(내 경험상) 에이전트 같은 건 사용하지 않음
“99% 수요가 항상 최첨단 모델에 몰려 있다”는 주장에 이의가 있음 진짜 경계선(프론티어)은 ‘능력’ 자체뿐 아니라 ‘가격 대비 능력’에 있음 최고 사양 모델이 99% 점유율을 차지하지 않음, 오히려 반대임 OpenRouter 통계를 보면 Claude Opus 4의 점유율은 1% 수준임, 가장 인기 높은 건 Sonnet 4이고 가입자 중 18%가 사용함 그 외에는 더 저렴한 Gemini Flash 2.0, 2.5도 많이 씀. Sonnet 4보다도 가격이 저렴함
- 맞는 말임. 기사 전체 요지는 동의하지만, Opus가 Sonnet보다 더 많이 쓰인다는 건 잘못된 주장임 그래프에 “Claude 3.5 Opus”라는 존재하지 않는 모델마저 표기됨 3.5 Sonnet이 출시된 이후로 3 Opus는 거의 잊혀졌고, 최근에야 Opus 4 같은 고가 모델이 다시 나왔지만, 여전히 Sonnet 4에 비하면 API 사용자 비중이 크지 않음
샌프란시스코에서는 왜 대문자와 구두점을 안 쓰는지 궁금함 그리고 왜 실리콘밸리 사람들이 가짜 지수 성장에 집착하는지 모르겠음 사실 AI의 진보가 정말 지수적으로 이뤄지고 있다기보다, 단지 몇 년 전에 비해 투입 자원이 엄청 많아졌기 때문이란 게 더 명확하다고 봄
- 혹시 이런 독특한 문체가, LLM이 쓴 글이 아니라는 걸 드러내기 위한 것인지 궁금함
- 언어가 자연스럽게 변하는 걸 감당 못 하겠음?/농담 어쩌면 예전 방식으로 살아가야 할 듯함
- 샌프란시스코 Tenderloin이나 미션 스트릿에 가면 실제로 대문자와 구두점 안 써도 총 맞을 수 있나?(농담)
글에서 “땅따먹기” 과정의 ‘음악 의자 게임’을 놓치고 있음 Uber 사례처럼, 벤처 자본을 써서 시장점유율을 선점하고, 수 년간 적자를 감수해도 일단 고객 인식에 자리를 잡으면, 이후에는 더 싸고 새로운 경쟁자가 나와도 쉽게 흔들리지 않는 구조가 됨 비즈니스가 안정적으로 자리 잡히고, 상장 이후에도 건실한(물론 아주 뛰어나지는 않아도) 주가를 유지함
글에서는 아무도 종량제 가격을 지불하지 않는 것처럼 그리지만, 실제로는 API 고객(즉 거의 모든 기업 고객)은 이미 모두 종량제 과금을 지불하고 있음