LLM은 정말 저렴하다

▲

GN⁺ 11달전 | parent | ★ favorite | on: LLM은 정말 저렴하다(snellman.net)

Hacker News 의견

수익을 내는 검색 API와 손해를 감수하며 시장 점유율을 노리는 클라우드 기반 LLM API를 비교하는 것은 올바르지 않다는 생각임
현재의 데이터는 기업들이 AI 주도권을 잡기 위해 무지막지한 설비 투자(capex)를 하는 상황이지만 아직 수익성을 내는 단계까지는 도달하지 못했음
두 제품 모두 성숙 단계가 완전히 다르며, 사용률이 줄어드는 10년 묵은 서비스에서 계속 손해를 보는 것을 정당화할 수 없다는 점은 무시할 수 없는 현실임
또한 검색 쿼리는 CPU 및 높은 캐시 적중률로 처리 가능하지만, LLM 추론은 대부분 GPU를 요구하고 각 토큰 결과가 크기 때문에 사용자 간 캐시 공유가 어려운 환경임
- inference 서비스가 수익성이 없다는 증거가 없다고 말하지만 사실 AWS 같은 호스팅 제공업체에서 inference 비용을 직접 지불해 보면 알 수 있다는 입장임
  AWS가 외부 모델을 돌려주는 서비스를 무한정 보조해줄 리 없으며, 설비투자는 capex이지만 추론 실행 비용은 opex(운영비)인 점이 더 중요하다는 주장임
- 요즘에는 오픈소스 모델을 호스팅하는 API 제공업체들은 API 요금과 실제 inference 하드웨어 비용 사이에 충분히 많은 마진을 남기고 있음
  물론 이게 전부는 아니나, 자체 추론 최적화까지 고려하면 마진이 더 커질 수 있다고 봄
  OpenAI나 Anthropic처럼 폐쇄형 모델 제공자 역시 공개된 모델 스펙을 바탕으로 추정해 보면, Anthropic은 API 요금과 하드웨어 비용 사이에 굉장히 좋은 마진을 내고 있다고 믿고 있음
  실제로 프로덕션에서 이 모델을 돌려본 경험이 있다면 이 부분은 직접 검증 가능하다고 생각함
- Perplexity가 이익률이 좋은 것처럼 보이기 위해 COGS를 R&D로 회계상 옮기는 식으로 회계조작을 한 정황이 있음
  링크
- DeepSeek의 API 서비스 분석에 따르면, 이들은 500% 이익률을 기록하고 있을 뿐 아니라 동일한 모델을 서비스하는 미국 기업들보다 훨씬 저렴한 가격에 제공하고 있음
  OpenAI나 Anthropic 역시 이보다 훨씬 더 높은 이익률을 올릴 가능성이 충분하다고 봄
  GPU는 대체로 CPU보다 비용 및 에너지 효율성 모두가 뛰어나며, Anthropic은 24k 토큰 시스템 프롬프트에서 KV-cache 캐싱을 활용함
- LLM API가 손해를 감수하고 시장을 선점하려는 전략이라는 인식은 동의하지 않음
  현재는 오히려 openrouter처럼 모델이나 제공업체를 자유롭게 변경할 수 있는 서비스가 있어서 락인 효과가 없고, 시장 점유율을 잡는 전략 자체가 경제적으로 의미 없음
  ChatGPT 웹처럼 UI를 통한 상품이라면 몰라도, API를 손해보고 판다는 것은 어리석다는 입장임
  심지어 VC들도 API를 손해보고 파는 걸 인정하지 않을 것이라고 생각함
검색 엔진과 LLM을 단순한 사실 검색(예: "미국의 수도는?") 용도로만 쓴다고 가정해서 비교하는 것 자체가 양쪽 서비스의 주요 사용사례에서 너무 멀리 벗어난 비유라고 생각함
검색엔진을 쓴다면 웹 인덱스 접근에 초점을 둘 것이고, 단순 답변을 얻는 것은 UI/제품의 기능이지 API의 목적이 아님
LLM을 쓸 때는 대용량 데이터 분석, 이미지 인식, 복잡한 추론, 프로그래밍 등 다소 복잡한 용도에 활용하게 되고, 이 경우 토큰 사용량이 단순 검색 답변보다 훨씬 크다는 점이 차이라 봄
저자가 하는 이야기는 "혼다 시빅이 사과와 lb 당 가격이 비슷해서 저렴하다"는 식의 잘못된 비교라고 느껴짐
- 기존 검색엔진 모델이 점점 쓸모 없어지는 느낌임
  전문가들은 점점 검색엔진을 덜 쓰고, 일반 사용자들도 검색엔진을 웹 인덱스 탐색이 아니라 마치 사람에게 물어보는 듯한 대화형 용도로 사용
  "미국의 수도는?"처럼 불필요한 부분이 포함된 쿼리는 오히려 검색엔진이 아니라 LLM이 더 적합하며,
  SEO 스팸 사이트들이 너무 많아 검색 품질 저하 문제도 큼
  LLM은 자연스러운 질문을 더 잘 처리하고, 쓸데없이 긴 설명, 스팸, 광고 없이 원하는 답만 골라주기 때문에 앞으로 더 쓸모 있어질 거라 생각함
- 저자가 "검색과 LLM 비교가 단순한 사실 질의로만 유지된다"고 지적한 점은 동의하지 않으나, 실제 분석의 핵심은 '검색엔진이랑 LLM을 비교한다'가 아니라,
  단순히 단위당(토큰/쿼리) 가격과 비용의 차이를 비교해 마진을 계산하는 것에 있음
  API가 보조금으로 유지되냐 아니냐를 따질 때 검색엔진 대비 비교는 꼭 필요하지 않다는 생각임
- LLM을 대용량 데이터 분석 및 복합적 용도로 쓴다는 점 자체는 맞지만, 이건 파워유저에 해당함을 인정함
- 검색엔진은 웹 인덱스를 찾는 용도라는 점이 좋은 포인트라는 생각임
  하지만 LLM도 원하는 정보를 더 정확히, 중복 없이, 빠르게 찾을 수 있으니 기존 검색이 무조건 더 좋다고 할 수 없다고 봄
  LLM이 직접적인 답변을 주고, 심지어 링크까지 붙여줘서 결과를 검증하기 쉽게 만들어 준다면 사용자의 만족도가 오히려 더 높아질 수 있음
  구글도 검색 결과를 계속 묻히게 만드는 원인은 점차 인덱스 기반 결과가 쓸모 없어지는 현실 때문이라는 의견임
- OpenAI가 2024년에 적자가 아주 크지 않았고, 월 방문/사용량을 감안하면 inference(추론) 비용이 실제로 그리 높지 않다는 근거도 있음
  ChatGPT가 매달 세계에서 가장 많이 방문한 사이트 중 하나라는 점, 대다수 트래픽이 무료 사용이라는 점을 감안하며, 실제 비용은 생각보다 크지 않을 수 있음
LLM 관련 비용 추정의 근거가 명확하지 않다는 의문을 제기함
예를 들어 항공기 수하물 크기 같은 최신 사실은 LLM에게 소스를 확인할 수 있도록 웹검색 기능을 붙여서 알아봐야 더 신뢰할 수 있음
그럴 경우 토큰 소비가 빠르게 늘어나서 비용 추정이 빗나갈 수 있으며,
여러 번 대화를 반복하며 맥락이 누적될 때 전체 토큰 사용량이 급증하는 구조임
실사용 데이터 없이 추정만으로는 비용 산정이 어렵다는 점을 인정함
- 나는 LLM에게 최신 소식을 물어보고, LLM은 여러 웹페이지를 직접 읽고 요약해서 안내함
  최신 관련 질문을 하면 웹검색을 꼭 하고 참고 링크를 붙여주니, 이런 방식으로 활용 가능하다고 생각함
- "미국 항공사 DFW-CDG 노선에서 기내 반입 사이즈가 얼마냐"고 물어보니 웹검색을 활용해 정확하게 답변 주고, 공식 웹사이트 및 FAA 링크까지 안내받음
  이런 방식이 활용에 효율적이라고 생각함
반도체 확보가 어려운 현실과, 비싼 전력 및 장비 비용을 감안할 때 빅플레이어들이 당장 API 기반 LLM 서비스를 수익성 개선 없이 돌리며 이익을 낼 수 있다고 보지 않음
하드웨어 가격과 전력 문제가 해결되지 않으면 당분간 큰 수익을 내긴 어려울 것
YouTube도 20년을 운영해도 구체적 흑자 여부를 알파벳이 공개하지 않는 점을 예시로 소개함
- 알파벳(구글)의 큰 수익성은 검색 시장에서의 압도적 점유율와 광고 매출 덕분임
  AI 기업들도 언젠가는 시장 점유율을 매출로 전환할 수 있을 것이라 bet을 거는 중임
  Stickiness(고착성)가 생기면 시장점유율→수익 전환도 충분히 가능성이 높다고 봄
- 주가 상승 자체가 어떤 의미에서는 기업 수익성의 기준일 수 있다고 말하며,
  아마존이 10년 넘게 비슷한 전략을 썼다는 점을 언급함
OpenAI가 2024년 5억 달러 적자, 5억 MAU라는 수치에서 '500M 무료 사용자들을 연평균 $10 ARPU로 전환하면 BEP 달성 가능'이라는 논리는 실제로는 실현이 어려운 수치임
무료 이용자를 $1이라도 과금하면 대다수가 떠날 전망이며,
'그냥'이라는 단어가 너무 현실을 단순화한다는 생각임
- 사실 $1/월 이용료로 과금 전환하자는 게 아니라, 요즘은 LLM 돌리는 게 매우 저렴해져서 광고 기반으로도 충분히 수익을 낼 수 있다는 주장임
  같은 사용자 규모의 서비스(광고 기반)와 비교했을 때, 지금의 LLM 원가는 훨씬 낮은 상태이며 구독은 유일한 답이 아니라 생각함
- 5억 명의 유료 사용자 전환은 오히려 서비스 사용 패턴과 원가를 전혀 다르게 만들어서 비용을 폭증시킬 수 있음
  차라리 1%만 유료로 전환되면 10억 달러/년이 나온다는 간단한 가정도 가능
- 나는 이 서비스들이 적자 운영을 하는 이유가 사용자 데이터 가치가 구독료보다 훨씬 크기 때문이라 생각함
- 실제로 모두가 유료로 전환해야 하는 게 아니라, 일부 유료 사용자가 나머지를 보조하는 구조만 만들어도 충분히 돌아갈 수 있다는 입장임
시간이 지나 시장 점유율 쏠림과 규제 이후에는 투자자들이 약속받은 가격 인상 현실화가 올 전망임
- 또는 광고로 돈을 벌 가능성도 높음
  어떤 질문을 해도 답변 사이에 코카콜라 광고가 나오며,
  AI 코딩 프로젝트에 자동 광고가 붙고,
  AI가 보내는 10번째 이메일마다 보험상품 광고를 삽입하는 등
  무한한 수익화 기회가 존재함
사내에서 LLM 운영 비용을 전력 사용량 중심으로 산정해보니, 내부 사용자의 burst성 요청에도 불구하고 100만 토큰당 $10대 수준에 불과함
서버 부하가 크지 않았으니, 대규모로 돌리면 훨씬 비용이 더 낮아질 여지도 충분함
- 이 계산이 오직 전력 사용량만을 근거로 하는지 질문함
LLM의 토큰 응답 1개와 검색엔진의 검색결과 1개가 동일하게 비교될 수 있는지 의문임
저자는 LLM 1천번 호출(약 100만 토큰)를 검색엔진 1천 쿼리와 비교하지만,
실제로는 1천 배 차이날 수 있는 오류가 있을 것 같음
(후속 수정: 저자 방식을 보니 실제로 1천번 API 사용 기준으로 가격을 비교한 것이라 오해였다는 점을 직접 확인)
- 저자가 LLM 1천회(총 100만 토큰), 검색엔진 1천회 기준으로 단가 비교한 게 맞음을 정정함
- Gemini 2.0 Flash가 100만 토큰에 0.4달러, Bing Search API가 1000쿼리에 15달러면 LLM쪽이 37배 더 저렴한 계산임
앞으로 효율 개선 및 100배 원가 절감이 예상된다면 왜 지금 이토록 데이터센터를 증설하는지 의문임
기계 업그레이드 주기만 거치면 기존 데이터센터도 충분히 활용 가능하지 않을까 생각하며,
현재의 투자 열기가 실제로 거품일 수 있다는 가능성도 언급함
관련 성능 비교 아티클을 공유함
링크
실제 가격만 보고 판단하기에는 비싸다는 생각이며,
극심한 시장점유율 경쟁 상황에선 숫자만 놓고 해석할 수 없다는 입장임