-
100조 토큰 이상 실제 LLM 사용 데이터를 분석한 대규모 연구로, 2024년 12월 o1 추론 모델 출시 이후 AI 추론 방식의 근본적 전환을 추적
-
오픈소스 모델이 전체 사용량의 약 30%까지 성장했으며, DeepSeek V3, Kimi K2 등 중국 오픈소스 모델이 빠르게 점유율 확대
-
롤플레이와 프로그래밍이 LLM 사용의 양대 축으로, 오픈소스 모델 사용량의 절반 이상이 롤플레이에 집중되어 생산성 중심 가정과 상반된 결과 도출
- 추론 모델이 전체 토큰의 50% 이상을 처리하며 에이전틱 추론이 새로운 기본 패턴으로 부상, 도구 호출과 다단계 작업이 증가
- 초기 사용자가 장기적으로 높은 유지율을 보이는 '유리 구두' 효과가 발견되어, 모델-워크로드 적합성이 핵심 경쟁력임을 시사
연구 개요 및 방법론
-
OpenRouter는 300개 이상의 모델과 60개 이상의 제공업체를 지원하는 멀티모델 AI 추론 플랫폼으로, 전 세계 수백만 개발자와 최종 사용자에게 서비스 제공
- 분석 데이터셋은 약 2년간의 익명화된 요청 수준 메타데이터로 구성되며, 프롬프트나 완성 텍스트 자체에는 접근하지 않음
- 모든 분석은 Hex 분석 플랫폼을 통해 재현 가능한 SQL 쿼리와 변환, 시각화 파이프라인으로 수행
- 콘텐츠 분류는 전체 프롬프트의 약 0.25% 를 무작위 샘플링하여 GoogleTagClassifier를 통해 수행, 프로그래밍·롤플레이·번역·일반 Q&A·생산성/글쓰기·교육·문학/창작·성인 등 카테고리로 분류
- 지역 분석은 청구 위치(billing location) 기반으로 사용자 지역 결정, IP 기반보다 안정적인 프록시로 활용
- 분석 기간은 주로 2024년 11월~2025년 11월의 13개월이며, 카테고리 분류 분석은 2025년 5월 이후 데이터에 기반
오픈소스 vs 폐쇄형 모델
-
오픈소스(OSS) 모델은 가중치가 공개된 모델, 폐쇄형 모델은 제한된 API로만 접근 가능한 모델(예: Anthropic Claude)로 정의
- 오픈소스 모델 점유율이 꾸준히 증가하여 2025년 말 기준 약 30% 에 도달, 이는 DeepSeek V3, Kimi K2 등 주요 오픈소스 모델 출시와 연동
-
중국 개발 모델이 2024년 말 주간 점유율 1.2%에서 일부 주간 약 30%까지 급성장, 연간 평균 약 13.0% 기록
- Qwen, DeepSeek 등이 빠른 반복 출시와 밀집된 릴리스 주기로 성장 주도
- 폐쇄형 모델은 여전히 신뢰성과 성능 상한선을 정의하며 규제 또는 기업 워크로드에서 우위
- OSS 모델은 비용 효율성, 투명성, 커스터마이징 측면에서 매력적이며, 현재 약 30%에서 균형점 형성
- 두 모델 유형은 상호 배타적이지 않고 멀티모델 스택 내에서 상호 보완적으로 활용
-
주요 오픈소스 플레이어
-
DeepSeek이 총 14.37조 토큰으로 OSS 중 가장 큰 기여자이나, 새로운 진입자들이 빠르게 점유율 확보
- Qwen(5.59조), Meta LLaMA(3.96조), Mistral AI(2.92조) 순으로 상위 랭크
- 2025년 중반 Summer Inflection 이후 시장 구조가 거의 독점에서 다원화로 전환
- MoonshotAI의 Kimi K2, OpenAI의 GPT-OSS 시리즈, MiniMax M2 등이 수주 내 프로덕션급 채택 달성
- 2025년 말 기준 단일 모델이 OSS 토큰의 25%를 초과하지 않으며, 5~7개 모델에 점유율 분산
- OSS 생태계는 혁신 주기가 빠르고 리더십이 보장되지 않는 고도로 역동적인 경쟁 환경
-
모델 크기 vs 시장 적합성: 중형이 새로운 소형
- 모델 크기 분류: 소형(15B 미만), 중형(15B~70B), 대형(70B 이상)
- 소형 모델은 전체적으로 점유율 하락 추세, 새로운 모델 공급에도 불구하고 사용량 감소
-
중형 모델은 2024년 11월
Qwen2.5 Coder 32B 출시로 본격적으로 카테고리 형성
-
Mistral Small 3(2025년 1월), GPT-OSS 20B(2025년 8월) 등이 강력한 경쟁자로 부상
- 사용자들이 역량과 효율성의 균형을 추구하고 있음을 시사
- 대형 모델 세그먼트는
Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, OpenAI GPT-OSS-120B 등 다양한 고성능 경쟁자로 다원화
- 소형 모델 지배 시대는 종료되고 시장은 중형 모델과 대형 모델로 양분화 추세
-
오픈소스 모델의 용도
- OSS 모델의 가장 큰 용도는 롤플레이(약 52%)와 프로그래밍으로, 두 카테고리가 OSS 토큰 사용량의 대부분 차지
- 롤플레이가 50% 이상을 차지하는 것은 오픈 모델이 콘텐츠 필터가 덜 제약적이어서 판타지나 엔터테인먼트 애플리케이션에 매력적임을 반영
-
중국 OSS 모델의 경우 롤플레이가 약 33%로 가장 크지만, 프로그래밍과 기술이 합쳐서 39%로 과반 차지
- Qwen, DeepSeek 등이 코드 생성과 인프라 관련 워크로드에 점점 더 많이 사용
- 프로그래밍 카테고리에서 OSS 내 점유율이 중국 OSS와 서양 OSS 간에 역동적으로 변화
- 2025년 중반에는 중국 OSS가 주도했으나, Q4에는 Meta LLaMA-2 Code, OpenAI GPT-OSS 시리즈 등 서양 OSS가 급증
- 롤플레이 트래픽은 2025년 말 기준 RoW OSS(43%)와 폐쇄형(42%) 이 거의 균등하게 분담, 초기 70% 폐쇄형 지배에서 크게 변화
에이전틱 추론의 부상
-
추론 모델이 전체 사용량의 절반 이상 차지
- 추론 최적화 모델을 통한 토큰 점유율이 2025년 초 미미한 수준에서 50% 초과로 급증
- GPT-5, Claude 4.5, Gemini 3 등 고성능 시스템 출시와 다단계 논리, 에이전트 스타일 워크플로우에 대한 사용자 선호가 이 변화 주도
- 최근 데이터 기준 xAI Grok Code Fast 1이 추론 트래픽 최대 점유율, Google Gemini 2.5 Pro/Flash가 뒤를 이음
- 오픈 모델인 OpenAI gpt-oss-120b도 상당한 점유율 유지, 개발자들이 가능할 때 OSS 선호
-
도구 호출 채택 증가
-
Tool Call 종료 이유로 분류된 요청의 토큰 점유율이 지속적으로 상승 추세
- 도구 호출은 처음에 OpenAI gpt-4o-mini, Anthropic Claude 3.5/3.7 시리즈에 집중되었으나, 2025년 중반 이후 더 많은 모델이 도구 제공 지원
- 2025년 9월 말 이후 Claude 4.5 Sonnet이 빠르게 점유율 확대,
Grok Code Fast, GLM 4.5도 진출
-
프롬프트-완성 형태의 변화
- 평균 프롬프트 토큰이 약 1.5K에서 6K 이상으로 약 4배 증가
- 평균 완성 토큰도 약 150에서 400으로 거의 3배 증가, 주로 추론 토큰 증가에 기인
- 프로그래밍 관련 작업이 프롬프트 토큰 증가의 주요 동력으로, 20K 이상의 입력 토큰을 자주 사용
- 다른 카테고리들은 상대적으로 평탄하고 낮은 볼륨 유지
-
더 긴 시퀀스, 더 복잡한 상호작용
- 평균 시퀀스 길이가 지난 20개월 동안 2,000 토큰 미만에서 5,400 토큰 이상으로 3배 이상 증가
- 프로그래밍 관련 프롬프트가 일반 목적 프롬프트보다 평균 3~4배 긴 토큰 길이 기록
- 긴 시퀀스는 사용자의 장황함이 아니라 내장된 정교한 에이전틱 워크플로우의 특징
-
함의: 에이전틱 추론이 새로운 기본값
- 추론 점유율 증가, 도구 사용 확대, 시퀀스 연장, 프로그래밍의 복잡성 증가 등이 LLM 사용의 중심축 이동을 시사
- 중간 LLM 요청은 더 이상 단순한 질문이나 고립된 지시가 아니라 구조화된 에이전트 유사 루프의 일부
- 모델 제공업체는 지연 시간, 도구 처리, 컨텍스트 지원, 악의적 도구 체인에 대한 견고성이 점점 중요
-
곧, 아직 아니라면, 에이전틱 추론이 추론의 대부분을 차지할 전망
카테고리: 사람들이 LLM을 어떻게 사용하는가?
-
지배적 카테고리
-
프로그래밍이 가장 일관되게 확장되는 카테고리로, 2025년 초 약 11%에서 최근 50% 초과
- Anthropic Claude 시리즈가 프로그래밍 관련 지출의 60% 이상 지속적으로 장악
- 11월 17일 주간에 처음으로 60% 이하로 하락
- OpenAI는 7월 이후 약 2%에서 8%로 점유율 확대, Google은 약 15%로 안정 유지
- MiniMax가 빠르게 부상하는 진입자로 주목
-
카테고리 내 태그 구성
-
롤플레이: 약 60%가 Games/Roleplaying Games, 캐주얼 챗봇보다 구조화된 롤플레이 또는 캐릭터 엔진으로 활용
-
Writers Resources(15.6%), Adult 콘텐츠(15.4%)도 포함
-
프로그래밍: 2/3 이상이 _Programming/Other_로 라벨링, 광범위한 범용 코드 관련 프롬프트 특성
-
Development Tools(26.4%)와 스크립팅 언어의 작은 점유율로 신흥 전문화 징후
-
번역, 과학, 건강 등은 상대적으로 평탄한 내부 구조
- 번역: Foreign Language Resources(51.1%)와 _Other_로 거의 균등 분할
- 과학: Machine Learning & AI(80.4%)가 지배, 대부분 메타 AI 질문
- 건강: 가장 세분화된 카테고리로 단일 하위 태그가 25% 초과하지 않음
-
금융, 학술, 법률은 훨씬 분산되어 있어 단일 태그가 20% 미만
-
제공업체별 인사이트
-
Anthropic Claude: 프로그래밍+기술 사용이 80% 초과, 롤플레이와 일반 Q&A는 소량
-
Google: 번역, 과학, 기술, 일반 지식 등 다양한 구성, 코딩 점유율은 2025년 말 약 18%로 하락
-
xAI: 대부분 기간 동안 프로그래밍이 80% 초과, 11월 말에만 기술, 롤플레이, 학술 등으로 확대
- 무료 배포로 인한 비개발자 트래픽 유입과 연관
-
OpenAI: 2025년 초 과학 작업이 절반 이상이었으나 말에는 15% 미만으로 감소
- 프로그래밍과 기술 관련 사용이 각각 29%로 절반 이상 차지
-
DeepSeek: 롤플레이, 캐주얼 채팅, 엔터테인먼트 지향 상호작용이 2/3 이상 지배
-
Qwen: 프로그래밍이 전체 기간 동안 40~60% 일관 유지, 과학, 기술, 롤플레이 등에서 주간 변동성 높음
지역: LLM 사용이 지역별로 어떻게 다른가
-
지역별 사용 분포
-
북미가 단일 최대 지역이나 관찰 기간 대부분에서 총 지출의 절반 미만
-
유럽은 주간 지출 점유율이 10~20%대에서 안정적으로 유지
-
아시아가 프론티어 모델 생산자뿐 아니라 빠르게 확장하는 소비자로 부상
- 데이터셋 초기 약 13%에서 최근 약 31% 로 점유율 2배 이상 증가
- 대륙별 분포: 북미 47.22%, 아시아 28.61%, 유럽 21.32%, 오세아니아 1.18%, 남미 1.21%, 아프리카 0.46%
- 상위 10개국: 미국(47.17%), 싱가포르(9.21%), 독일(7.51%), 중국(6.01%), 한국(2.88%), 네덜란드(2.65%), 영국(2.52%), 캐나다(1.90%), 일본(1.77%), 인도(1.62%)
-
언어 분포
-
영어가 82.87%로 지배적
- 중국어 간체(4.95%), 러시아어(2.47%), 스페인어(1.43%), 태국어(1.03%), 기타(7.25%)
LLM 사용자 유지율 분석
-
신데렐라 '유리 구두' 현상
- 대부분의 리텐션 차트가 높은 이탈과 빠른 코호트 감소로 지배되나, 초기 사용자 코호트가 시간이 지나도 내구성 있는 유지율 보임
- 이러한 기초 코호트(foundational cohorts) 는 워크로드가 깊고 지속적인 워크로드-모델 적합성을 달성한 사용자들을 대표
-
유리 구두 효과: 급변하는 AI 생태계에서 각 새 프론티어 모델이 이전에 미충족된 고가치 워크로드에 "시험되고", 기술적·경제적 제약에 정확히 맞을 때 강력한 락인 효과 발생
-
Gemini 2.5 Pro의 2025년 6월 코호트와 Claude 4 Sonnet의 5월 코호트가 5개월 차에 약 40% 유지율로 후속 코호트보다 현저히 높음
-
GPT-4o Mini: 단일 기초 코호트(2024년 7월)가 출시 시 지배적이고 끈끈한 워크로드-모델 적합성 확립, 이후 모든 코호트는 동일하게 이탈
-
Gemini 2.0 Flash, Llama 4 Maverick: 높은 성과의 기초 코호트가 형성되지 않아 모든 코호트가 동일하게 저조, "프론티어"로 인식되지 못함
-
DeepSeek 모델들의 부메랑 효과: 일반적인 단조 감소 대신 부활 점프 현상 관찰
- DeepSeek R1의 2025년 4월 코호트가 3개월 차에, DeepSeek Chat V3-0324의 7월 코호트가 2개월 차에 유지율 상승
- 대안을 시도한 후 돌아오는 사용자들을 나타냄
-
함의
- 첫 번째로 문제를 해결하는 것이 지속적 우위로 작용
- 코호트 수준 유지율 패턴이 모델 차별화의 경험적 신호
- 프론티어 윈도우의 시간적 제약: 모델이 기초 사용자를 확보할 수 있는 창은 좁고 일시적이나 장기 채택 역학에 결정적
- 기초 코호트는 실질적 기술 진보의 지문이자 AI 모델이 신기함에서 필수품으로 전환한 지점
비용 vs 사용 역학
-
카테고리별 AI 워크로드 세분화 분석
- 중간 비용 $0.73/1M 토큰을 기준으로 4사분면 프레임워크 구성
-
프리미엄 워크로드(우상단): 고비용-고사용 애플리케이션,
technology와 science 포함
-
technology가 가장 비싸면서도 높은 사용량 유지, 복잡한 시스템 설계나 아키텍처에 강력한 모델 필요 시사
-
대중 시장 볼륨 드라이버(좌상단): 고사용-저비용,
roleplay, programming, science 지배
-
programming이 "킬러 프로페셔널" 카테고리로 최고 사용량에 고도로 최적화된 중간 비용
-
roleplay의 사용량이 programming에 버금가는 수준으로 소비자 지향 롤플레이가 최상위 전문적 용도와 동등한 참여 유도
-
전문 전문가(우하단): 저볼륨-고비용,
finance, academia, health, marketing 포함
- 고위험 니치 전문 도메인으로 정확성, 신뢰성, 도메인 특화 지식에 대한 수요 높음
-
니치 유틸리티(좌하단): 저비용-저볼륨,
translation, legal, trivia 포함
- 기능적이고 비용 최적화된 유틸리티, 상품화되어 저렴한 대안 이용 가능
-
AI 모델의 유효 비용 vs 사용
- 로그-로그 스케일에서 가격과 사용량 간 상관관계가 약함, 추세선이 거의 평탄
-
수요가 상대적으로 가격 비탄력적: 가격 10% 하락 시 사용량 약 0.5~0.7% 증가
- 두 개의 뚜렷한 체제: 폐쇄형 모델(OpenAI, Anthropic)이 고비용-고사용 구역, 오픈 모델(DeepSeek, Mistral, Qwen)이 저비용-고볼륨 구역
-
4가지 사용-비용 아키타입:
-
프리미엄 리더: Claude 3.7 Sonnet, Claude Sonnet 4 등 약 $2/1M 토큰으로 높은 사용량 달성
-
효율적 거인: Gemini 2.0 Flash, DeepSeek V3 0324 등 $0.40/1M 토큰 미만으로 유사한 사용량
-
롱테일: Qwen 2 7B Instruct, IBM Granite 4.0 Micro 등 수 센트/1M 토큰이나 약한 성능이나 제한된 가시성으로 낮은 사용량
-
프리미엄 전문가: GPT-4, GPT-5 Pro 등 약 $35/1M 토큰으로 저사용량, 고위험 워크로드에 한정 사용
-
Jevons 역설의 증거: 매우 저렴하고 빠른 모델이 더 많은 작업에 사용되어 총 토큰 소비 증가
- 품질과 역량이 종종 비용을 능가: 비싼 모델(Claude, GPT-4)의 높은 사용량은 모델이 현저히 우수하거나 신뢰 우위가 있으면 사용자들이 높은 비용 감수
논의
-
멀티모델 생태계: 단일 모델이 모든 사용을 지배하지 않으며, 폐쇄형과 오픈 모델 모두 상당한 점유율 확보
-
생산성 이상의 사용 다양성: 오픈소스 모델 사용량의 절반 이상이 롤플레이와 스토리텔링
- 소비자 지향 애플리케이션, 개인화, AI와 엔터테인먼트 IP 간 크로스오버에 대한 기회 부각
-
에이전트 vs 인간: 에이전틱 추론의 부상: 단일 턴 상호작용에서 에이전틱 추론으로 전환, 모델이 계획하고 추론하며 여러 단계에 걸쳐 실행
-
지역적 전망: LLM 사용이 점점 글로벌하고 분산화, 아시아 점유율이 13%에서 31%로 상승, 중국이 주요 세력으로 부상
-
비용 vs 사용 역학: LLM 시장은 아직 상품이 아님, 가격만으로는 사용량 설명 부족
- 오픈소스 모델이 지속적으로 효율적 프론티어 밀어붙이며 폐쇄형 시스템의 가격 결정력 압축
-
유지율과 신데렐라 유리 구두 현상: 기초 모델이 도약할 때 유지율이 방어가능성의 진정한 척도
한계
- 단일 플랫폼(OpenRouter)의 유한한 시간 창에서 관찰된 패턴으로 더 넓은 생태계의 부분적 시야만 제공
- 기업 사용, 로컬 호스팅 배포, 폐쇄된 내부 시스템 등은 데이터 범위 외
- 일부 분석이 프록시 측정에 의존: 다단계 또는 도구 호출로 에이전틱 추론 식별, 청구 기반 지역 추론 등
- 결과는 결정적 측정보다는 지시적 행동 패턴으로 해석 필요
결론
- LLM이 세계 컴퓨팅 인프라에 통합되는 방식에 대한 실증적 시각 제공
- 지난 해 o1급 모델 출현으로 추론에 대한 인식이 단계적 변화 촉발, 단일 샷 벤치마크를 넘어 프로세스 기반 지표, 지연-비용 트레이드오프, 오케스트레이션 하 성공으로 평가 전환
- LLM 생태계는 구조적으로 다원적, 사용자가 역량, 지연, 가격, 신뢰 등 여러 축에 따라 시스템 선택
- 추론 자체도 변화 중: 정적 완성에서 동적 오케스트레이션으로, 에이전틱 추론 부상
- 지역적으로 더 분산화, 아시아 점유율 확대, 중국이 모델 개발자이자 수출자로 부상
- o1이 경쟁을 종료하지 않고 디자인 공간을 확장, 모놀리식 베팅 대신 시스템 사고, 직관 대신 계측, 리더보드 델타 대신 경험적 사용 분석으로 이동
- 다음 단계는 운영 우수성에 집중: 실제 작업 완료 측정, 분포 변화 하 분산 감소, 프로덕션 규모 워크로드의 실제 요구에 모델 행동 정렬