LLM은 정말 저렴하다
(snellman.net)-
대다수 사람들이 LLM(대규모 언어 모델) 사용 비용을 과대평가하는 경향이 있으나, 실제로는 빠르게 저렴해져서 웹 검색보다도 저렴한 수준에 도달
- 초기 생성형 AI 열풍 당시에는 추론 비용이 높았으나, 지난 2년간 비용이 1000배 가까이 감소
- LLM API의 실제 단가를 웹 검색 API와 직접 비교하면, 저가형 LLM 모델은 심지어 최저가 검색 API보다도 10배 이상 저렴하며, 중간 가격대 모델도 상당히 경쟁력 있는 가격 구조임
- 모델 운영사들이 API 가격을 무리하게 보조하고 있다는 근거는 희박하며, 실제로 GPU 비용 기준 80%에 달하는 높은 마진을 기록하는 사례도 있음
- OpenAI 등 주요 AI 기업들이 적자를 내는 이유는 비용 때문이 아니라 낮은 수익화 정책 때문이며, 이용자당 월 1달러만 받아도 흑자 전환이 가능한 구조임
- 향후 비용 부담의 중심은 LLM 자체가 아니라, 외부 백엔드 서비스(예: 각종 데이터 제공처)로 옮겨갈 전망임. LLM 실행은 점점 더 저렴해지고, 비즈니스 모델 역시 충분히 성립 가능함
LLM의 비용 오해와 현실
- 많은 사람들이 ChatGPT와 같은 LLM의 운영 비용이 매우 비싸다고 오해하고 있음
- 이로 인해 AI 업체의 사업성이 불투명하다거나, 소비자용 AI 서비스의 수익화에 불리하다는 오분석이 반복됨
-
LLM은 아직도 비싸다는 건 인식의 오류
- AI 붐 초기에는 추론(inference) 비용이 매우 높았으나, 최근 2년간 비용이 1000배 가까이 감소
- 많은 논의가 과거 기준의 비용 구조를 기반으로 잘못된 전망을 하고 있음
- 흔히 사용되는 "1백만 토큰당 가격 모델" 은 직관적으로 이해하기 어려움
웹 검색 API와 LLM API 가격 비교
-
대표적 웹 검색 API 요금
- Google Search: $35/1000회
- Bing Search: $15/1000회
- Brave Search: $5~9/1000회, 단가가 높아질수록 오히려 가격이 오르는 구조
- 전체적으로 웹 검색 API는 저렴하진 않으며, 서비스 질이 좋은 쪽이 더 비쌈
-
LLM API(1k 토큰 기준) 요금
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 등
- 검색과 비교 가능한 방식으로 LLM 단가 산정 필요: 한 질의당 토큰 출력 개수 + 토큰당 가격
- 500~1000토큰이 평균 쿼리당 소비량으로, 직접적 비교 가능
-
저가 LLM 모델은 최저가 검색 API 대비 10~25배 저렴
- 품질 중간대 LLM도 동일 구간의 검색보다 훨씬 낮은 비용
- 배치 단위, 비피크 시간 할인 등 다양한 추가 할인 조건 고려시 더 저렴해짐
비용이 저렴한 진짜 이유
-
모델 제공사들의 API 단가 보조 의혹은 근거 약함
- API 시장점유율 확대의 유인도 약하며, 다수 타사 제공 API 가격도 경쟁적으로 형성됨
- Deepseek의 실측 자료에 따르면 GPU 기준 마진이 80%에 달함
-
훈련(Training) 비용과 추론(Inference) 비용
- 대규모 추론 트래픽에 의해 훈련비용이 효과적으로 분산(Amortize)되고 있음
- 오히려 서드파티 백엔드 서비스 이용 시 발생하는 비용이 문제로 부각될 가능성
“LLM API는 적자일 것” 주장의 반박
-
OpenAI 등 대형 사업자 적자는 낮은 수익화 전략의 결과
- 월 1달러 수준의 수익화만 해도 흑자 전환 가능
- 무료 사용자 트래픽을 활용한 데이터 수집 목적 등도 존재
-
향후 진짜 비용 이슈는 LLM이 아니라 외부 백엔드
- 예: AI 에이전트가 티켓 예매 등 외부 API를 호출할 경우, 실제로는 서드파티의 비용 부담이 커질 수 있음
- 서비스 사업자들은 크롤링 차단, 모바일 전환, 로그인 강화 등으로 대응할 전망
왜 중요한가
- 많은 미래 예측이 LLM이 비싸다는 잘못된 전제에 기반해 이루어지고 있음
- 실제로는 비용 하락과 수요 증대가 동시에 발생, 향후 가격은 더 하락하며 시장 활성화 예상
- Frontier AI 기업들은 수익화보다 시장 선점에 초점을 두며, 실제로 LLM 서비스 단가가 특히 낮음
- 진짜 비용 문제는 LLM 자체가 아니라 후방의 외부 연동 서비스(예: 티켓팅 사이트 등) 에 있음
- 이러한 외부 서비스들이 수익을 얻지 못하는 구조에서, 향후 AI와 백엔드 서비스 간 새로운 수익모델 또는 기술적 대립 가능성 존재
결론 및 전망
-
LLM의 추론 비용 자체는 더 이상 AI 비즈니스의 본질적 제약이 아님
- 저렴한 실행 비용과 다양한 수익화 옵션(예: 광고, 구독 등)으로 충분히 사업적 가능성 보유
- 앞으로는 LLM이 아닌, AI가 활용하는 외부 데이터 제공처의 비용·인프라 문제가 주요 과제가 될 것
- 시장·기술 변화에 맞춘 현실적 비용 인식과 비즈니스 전략 전환이 필요함
onprem으로 그래픽카드 구비해서 사용하거나 클라우드에서 gpu 임대하는 시나리오로 시뮬레이션 해봤을 때는 엄청 비싸다고 생각했는데
규모의 경제를 달성하면 꽤 할만한가보네요.
Hacker News 의견
-
수익을 내는 검색 API와 손해를 감수하며 시장 점유율을 노리는 클라우드 기반 LLM API를 비교하는 것은 올바르지 않다는 생각임
현재의 데이터는 기업들이 AI 주도권을 잡기 위해 무지막지한 설비 투자(capex)를 하는 상황이지만 아직 수익성을 내는 단계까지는 도달하지 못했음
두 제품 모두 성숙 단계가 완전히 다르며, 사용률이 줄어드는 10년 묵은 서비스에서 계속 손해를 보는 것을 정당화할 수 없다는 점은 무시할 수 없는 현실임
또한 검색 쿼리는 CPU 및 높은 캐시 적중률로 처리 가능하지만, LLM 추론은 대부분 GPU를 요구하고 각 토큰 결과가 크기 때문에 사용자 간 캐시 공유가 어려운 환경임-
inference 서비스가 수익성이 없다는 증거가 없다고 말하지만 사실 AWS 같은 호스팅 제공업체에서 inference 비용을 직접 지불해 보면 알 수 있다는 입장임
AWS가 외부 모델을 돌려주는 서비스를 무한정 보조해줄 리 없으며, 설비투자는 capex이지만 추론 실행 비용은 opex(운영비)인 점이 더 중요하다는 주장임 -
요즘에는 오픈소스 모델을 호스팅하는 API 제공업체들은 API 요금과 실제 inference 하드웨어 비용 사이에 충분히 많은 마진을 남기고 있음
물론 이게 전부는 아니나, 자체 추론 최적화까지 고려하면 마진이 더 커질 수 있다고 봄
OpenAI나 Anthropic처럼 폐쇄형 모델 제공자 역시 공개된 모델 스펙을 바탕으로 추정해 보면, Anthropic은 API 요금과 하드웨어 비용 사이에 굉장히 좋은 마진을 내고 있다고 믿고 있음
실제로 프로덕션에서 이 모델을 돌려본 경험이 있다면 이 부분은 직접 검증 가능하다고 생각함 -
Perplexity가 이익률이 좋은 것처럼 보이기 위해 COGS를 R&D로 회계상 옮기는 식으로 회계조작을 한 정황이 있음
링크 -
DeepSeek의 API 서비스 분석에 따르면, 이들은 500% 이익률을 기록하고 있을 뿐 아니라 동일한 모델을 서비스하는 미국 기업들보다 훨씬 저렴한 가격에 제공하고 있음
OpenAI나 Anthropic 역시 이보다 훨씬 더 높은 이익률을 올릴 가능성이 충분하다고 봄
GPU는 대체로 CPU보다 비용 및 에너지 효율성 모두가 뛰어나며, Anthropic은 24k 토큰 시스템 프롬프트에서 KV-cache 캐싱을 활용함 -
LLM API가 손해를 감수하고 시장을 선점하려는 전략이라는 인식은 동의하지 않음
현재는 오히려 openrouter처럼 모델이나 제공업체를 자유롭게 변경할 수 있는 서비스가 있어서 락인 효과가 없고, 시장 점유율을 잡는 전략 자체가 경제적으로 의미 없음
ChatGPT 웹처럼 UI를 통한 상품이라면 몰라도, API를 손해보고 판다는 것은 어리석다는 입장임
심지어 VC들도 API를 손해보고 파는 걸 인정하지 않을 것이라고 생각함
-
-
검색 엔진과 LLM을 단순한 사실 검색(예: "미국의 수도는?") 용도로만 쓴다고 가정해서 비교하는 것 자체가 양쪽 서비스의 주요 사용사례에서 너무 멀리 벗어난 비유라고 생각함
검색엔진을 쓴다면 웹 인덱스 접근에 초점을 둘 것이고, 단순 답변을 얻는 것은 UI/제품의 기능이지 API의 목적이 아님
LLM을 쓸 때는 대용량 데이터 분석, 이미지 인식, 복잡한 추론, 프로그래밍 등 다소 복잡한 용도에 활용하게 되고, 이 경우 토큰 사용량이 단순 검색 답변보다 훨씬 크다는 점이 차이라 봄
저자가 하는 이야기는 "혼다 시빅이 사과와 lb 당 가격이 비슷해서 저렴하다"는 식의 잘못된 비교라고 느껴짐-
기존 검색엔진 모델이 점점 쓸모 없어지는 느낌임
전문가들은 점점 검색엔진을 덜 쓰고, 일반 사용자들도 검색엔진을 웹 인덱스 탐색이 아니라 마치 사람에게 물어보는 듯한 대화형 용도로 사용
"미국의 수도는?"처럼 불필요한 부분이 포함된 쿼리는 오히려 검색엔진이 아니라 LLM이 더 적합하며,
SEO 스팸 사이트들이 너무 많아 검색 품질 저하 문제도 큼
LLM은 자연스러운 질문을 더 잘 처리하고, 쓸데없이 긴 설명, 스팸, 광고 없이 원하는 답만 골라주기 때문에 앞으로 더 쓸모 있어질 거라 생각함 -
저자가 "검색과 LLM 비교가 단순한 사실 질의로만 유지된다"고 지적한 점은 동의하지 않으나, 실제 분석의 핵심은 '검색엔진이랑 LLM을 비교한다'가 아니라,
단순히 단위당(토큰/쿼리) 가격과 비용의 차이를 비교해 마진을 계산하는 것에 있음
API가 보조금으로 유지되냐 아니냐를 따질 때 검색엔진 대비 비교는 꼭 필요하지 않다는 생각임 -
LLM을 대용량 데이터 분석 및 복합적 용도로 쓴다는 점 자체는 맞지만, 이건 파워유저에 해당함을 인정함
-
검색엔진은 웹 인덱스를 찾는 용도라는 점이 좋은 포인트라는 생각임
하지만 LLM도 원하는 정보를 더 정확히, 중복 없이, 빠르게 찾을 수 있으니 기존 검색이 무조건 더 좋다고 할 수 없다고 봄
LLM이 직접적인 답변을 주고, 심지어 링크까지 붙여줘서 결과를 검증하기 쉽게 만들어 준다면 사용자의 만족도가 오히려 더 높아질 수 있음
구글도 검색 결과를 계속 묻히게 만드는 원인은 점차 인덱스 기반 결과가 쓸모 없어지는 현실 때문이라는 의견임 -
OpenAI가 2024년에 적자가 아주 크지 않았고, 월 방문/사용량을 감안하면 inference(추론) 비용이 실제로 그리 높지 않다는 근거도 있음
ChatGPT가 매달 세계에서 가장 많이 방문한 사이트 중 하나라는 점, 대다수 트래픽이 무료 사용이라는 점을 감안하며, 실제 비용은 생각보다 크지 않을 수 있음
-
-
LLM 관련 비용 추정의 근거가 명확하지 않다는 의문을 제기함
예를 들어 항공기 수하물 크기 같은 최신 사실은 LLM에게 소스를 확인할 수 있도록 웹검색 기능을 붙여서 알아봐야 더 신뢰할 수 있음
그럴 경우 토큰 소비가 빠르게 늘어나서 비용 추정이 빗나갈 수 있으며,
여러 번 대화를 반복하며 맥락이 누적될 때 전체 토큰 사용량이 급증하는 구조임
실사용 데이터 없이 추정만으로는 비용 산정이 어렵다는 점을 인정함-
나는 LLM에게 최신 소식을 물어보고, LLM은 여러 웹페이지를 직접 읽고 요약해서 안내함
최신 관련 질문을 하면 웹검색을 꼭 하고 참고 링크를 붙여주니, 이런 방식으로 활용 가능하다고 생각함 -
"미국 항공사 DFW-CDG 노선에서 기내 반입 사이즈가 얼마냐"고 물어보니 웹검색을 활용해 정확하게 답변 주고, 공식 웹사이트 및 FAA 링크까지 안내받음
이런 방식이 활용에 효율적이라고 생각함
-
-
반도체 확보가 어려운 현실과, 비싼 전력 및 장비 비용을 감안할 때 빅플레이어들이 당장 API 기반 LLM 서비스를 수익성 개선 없이 돌리며 이익을 낼 수 있다고 보지 않음
하드웨어 가격과 전력 문제가 해결되지 않으면 당분간 큰 수익을 내긴 어려울 것
YouTube도 20년을 운영해도 구체적 흑자 여부를 알파벳이 공개하지 않는 점을 예시로 소개함-
알파벳(구글)의 큰 수익성은 검색 시장에서의 압도적 점유율와 광고 매출 덕분임
AI 기업들도 언젠가는 시장 점유율을 매출로 전환할 수 있을 것이라 bet을 거는 중임
Stickiness(고착성)가 생기면 시장점유율→수익 전환도 충분히 가능성이 높다고 봄 -
주가 상승 자체가 어떤 의미에서는 기업 수익성의 기준일 수 있다고 말하며,
아마존이 10년 넘게 비슷한 전략을 썼다는 점을 언급함
-
-
OpenAI가 2024년 5억 달러 적자, 5억 MAU라는 수치에서 '500M 무료 사용자들을 연평균 $10 ARPU로 전환하면 BEP 달성 가능'이라는 논리는 실제로는 실현이 어려운 수치임
무료 이용자를 $1이라도 과금하면 대다수가 떠날 전망이며,
'그냥'이라는 단어가 너무 현실을 단순화한다는 생각임-
사실 $1/월 이용료로 과금 전환하자는 게 아니라, 요즘은 LLM 돌리는 게 매우 저렴해져서 광고 기반으로도 충분히 수익을 낼 수 있다는 주장임
같은 사용자 규모의 서비스(광고 기반)와 비교했을 때, 지금의 LLM 원가는 훨씬 낮은 상태이며 구독은 유일한 답이 아니라 생각함 -
5억 명의 유료 사용자 전환은 오히려 서비스 사용 패턴과 원가를 전혀 다르게 만들어서 비용을 폭증시킬 수 있음
차라리 1%만 유료로 전환되면 10억 달러/년이 나온다는 간단한 가정도 가능 -
나는 이 서비스들이 적자 운영을 하는 이유가 사용자 데이터 가치가 구독료보다 훨씬 크기 때문이라 생각함
-
실제로 모두가 유료로 전환해야 하는 게 아니라, 일부 유료 사용자가 나머지를 보조하는 구조만 만들어도 충분히 돌아갈 수 있다는 입장임
-
-
시간이 지나 시장 점유율 쏠림과 규제 이후에는 투자자들이 약속받은 가격 인상 현실화가 올 전망임
- 또는 광고로 돈을 벌 가능성도 높음
어떤 질문을 해도 답변 사이에 코카콜라 광고가 나오며,
AI 코딩 프로젝트에 자동 광고가 붙고,
AI가 보내는 10번째 이메일마다 보험상품 광고를 삽입하는 등
무한한 수익화 기회가 존재함
- 또는 광고로 돈을 벌 가능성도 높음
-
사내에서 LLM 운영 비용을 전력 사용량 중심으로 산정해보니, 내부 사용자의 burst성 요청에도 불구하고 100만 토큰당 $10대 수준에 불과함
서버 부하가 크지 않았으니, 대규모로 돌리면 훨씬 비용이 더 낮아질 여지도 충분함- 이 계산이 오직 전력 사용량만을 근거로 하는지 질문함
-
LLM의 토큰 응답 1개와 검색엔진의 검색결과 1개가 동일하게 비교될 수 있는지 의문임
저자는 LLM 1천번 호출(약 100만 토큰)를 검색엔진 1천 쿼리와 비교하지만,
실제로는 1천 배 차이날 수 있는 오류가 있을 것 같음
(후속 수정: 저자 방식을 보니 실제로 1천번 API 사용 기준으로 가격을 비교한 것이라 오해였다는 점을 직접 확인)-
저자가 LLM 1천회(총 100만 토큰), 검색엔진 1천회 기준으로 단가 비교한 게 맞음을 정정함
-
Gemini 2.0 Flash가 100만 토큰에 0.4달러, Bing Search API가 1000쿼리에 15달러면 LLM쪽이 37배 더 저렴한 계산임
-
-
앞으로 효율 개선 및 100배 원가 절감이 예상된다면 왜 지금 이토록 데이터센터를 증설하는지 의문임
기계 업그레이드 주기만 거치면 기존 데이터센터도 충분히 활용 가능하지 않을까 생각하며,
현재의 투자 열기가 실제로 거품일 수 있다는 가능성도 언급함 -
관련 성능 비교 아티클을 공유함
링크
실제 가격만 보고 판단하기에는 비싸다는 생각이며,
극심한 시장점유율 경쟁 상황에선 숫자만 놓고 해석할 수 없다는 입장임