# OpenRouter의 AI 현황 보고서 : 100조 토큰 실증 연구

> Clean Markdown view of GeekNews topic #25405. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25405](https://news.hada.io/topic?id=25405)
- GeekNews Markdown: [https://news.hada.io/topic/25405.md](https://news.hada.io/topic/25405.md)
- Type: news
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-29T10:01:02+09:00
- Updated: 2025-12-29T10:01:02+09:00
- Original source: [openrouter.ai](https://openrouter.ai/state-of-ai)
- Points: 7
- Comments: 0

## Summary

**OpenRouter의 100조 토큰 분석**은 LLM 사용이 단순 질의응답을 넘어 **에이전틱 추론** 중심으로 재편되고 있음을 보여줍니다. 추론 모델이 전체 토큰의 절반 이상을 처리하며, 도구 호출과 다단계 실행이 일상화되었습니다. 한편 **오픈소스 모델 점유율이 30%**에 도달하고, DeepSeek·Qwen 등 중국계 모델이 빠르게 성장하면서 글로벌 AI 생태계가 폐쇄형 중심 구조에서 다원적 경쟁 구도로 이동하고 있습니다.

## Topic Body

- **100조 토큰 이상** 실제 LLM 사용 데이터를 분석한 대규모 연구로, 2024년 12월 o1 추론 모델 출시 이후 AI 추론 방식의 근본적 전환을 추적  
- **오픈소스 모델**이 전체 사용량의 약 30%까지 성장했으며, DeepSeek V3, Kimi K2 등 중국 오픈소스 모델이 빠르게 점유율 확대  
- **롤플레이와 프로그래밍**이 LLM 사용의 양대 축으로, 오픈소스 모델 사용량의 절반 이상이 롤플레이에 집중되어 생산성 중심 가정과 상반된 결과 도출  
- 추론 모델이 전체 토큰의 **50% 이상**을 처리하며 **에이전틱 추론**이 새로운 기본 패턴으로 부상, 도구 호출과 다단계 작업이 증가  
- 초기 사용자가 장기적으로 높은 유지율을 보이는 **'유리 구두' 효과**가 발견되어, 모델-워크로드 적합성이 핵심 경쟁력임을 시사  
  
---  
  
### 연구 개요 및 방법론  
  
- **OpenRouter**는 300개 이상의 모델과 60개 이상의 제공업체를 지원하는 멀티모델 AI 추론 플랫폼으로, 전 세계 수백만 개발자와 최종 사용자에게 서비스 제공  
- 분석 데이터셋은 약 2년간의 **익명화된 요청 수준 메타데이터**로 구성되며, 프롬프트나 완성 텍스트 자체에는 접근하지 않음  
- 모든 분석은 **Hex** 분석 플랫폼을 통해 재현 가능한 SQL 쿼리와 변환, 시각화 파이프라인으로 수행  
- 콘텐츠 분류는 전체 프롬프트의 약 **0.25%** 를 무작위 샘플링하여 **GoogleTagClassifier**를 통해 수행, 프로그래밍·롤플레이·번역·일반 Q&A·생산성/글쓰기·교육·문학/창작·성인 등 카테고리로 분류  
- 지역 분석은 **청구 위치(billing location)** 기반으로 사용자 지역 결정, IP 기반보다 안정적인 프록시로 활용  
- 분석 기간은 주로 2024년 11월~2025년 11월의 13개월이며, 카테고리 분류 분석은 2025년 5월 이후 데이터에 기반  
  
### 오픈소스 vs 폐쇄형 모델  
  
- **오픈소스(OSS) 모델**은 가중치가 공개된 모델, **폐쇄형 모델**은 제한된 API로만 접근 가능한 모델(예: Anthropic Claude)로 정의  
- 오픈소스 모델 점유율이 꾸준히 증가하여 2025년 말 기준 약 **30%** 에 도달, 이는 DeepSeek V3, Kimi K2 등 주요 오픈소스 모델 출시와 연동  
- **중국 개발 모델**이 2024년 말 주간 점유율 1.2%에서 일부 주간 약 30%까지 급성장, 연간 평균 약 13.0% 기록  
  - Qwen, DeepSeek 등이 빠른 반복 출시와 밀집된 릴리스 주기로 성장 주도  
- 폐쇄형 모델은 여전히 신뢰성과 성능 상한선을 정의하며 규제 또는 기업 워크로드에서 우위  
- OSS 모델은 **비용 효율성, 투명성, 커스터마이징** 측면에서 매력적이며, 현재 약 30%에서 균형점 형성  
- 두 모델 유형은 상호 배타적이지 않고 **멀티모델 스택** 내에서 상호 보완적으로 활용  
- ## 주요 오픈소스 플레이어  
  - **DeepSeek**이 총 14.37조 토큰으로 OSS 중 가장 큰 기여자이나, 새로운 진입자들이 빠르게 점유율 확보  
  - Qwen(5.59조), Meta LLaMA(3.96조), Mistral AI(2.92조) 순으로 상위 랭크  
  - 2025년 중반 **Summer Inflection** 이후 시장 구조가 거의 독점에서 다원화로 전환  
    - MoonshotAI의 Kimi K2, OpenAI의 GPT-OSS 시리즈, MiniMax M2 등이 수주 내 프로덕션급 채택 달성  
  - 2025년 말 기준 단일 모델이 OSS 토큰의 25%를 초과하지 않으며, 5~7개 모델에 점유율 분산  
  - OSS 생태계는 **혁신 주기가 빠르고 리더십이 보장되지 않는** 고도로 역동적인 경쟁 환경  
- ## 모델 크기 vs 시장 적합성: 중형이 새로운 소형  
  - 모델 크기 분류: **소형**(15B 미만), **중형**(15B~70B), **대형**(70B 이상)  
  - 소형 모델은 전체적으로 점유율 하락 추세, 새로운 모델 공급에도 불구하고 사용량 감소  
  - **중형 모델**은 2024년 11월 `Qwen2.5 Coder 32B` 출시로 본격적으로 카테고리 형성  
    - `Mistral Small 3`(2025년 1월), `GPT-OSS 20B`(2025년 8월) 등이 강력한 경쟁자로 부상  
    - 사용자들이 **역량과 효율성의 균형**을 추구하고 있음을 시사  
  - 대형 모델 세그먼트는 `Qwen3 235B A22B Instruct`, `Z.AI GLM 4.5 Air`, `OpenAI GPT-OSS-120B` 등 다양한 고성능 경쟁자로 다원화  
  - 소형 모델 지배 시대는 종료되고 시장은 **중형 모델과 대형 모델로 양분화** 추세  
- ## 오픈소스 모델의 용도  
  - OSS 모델의 가장 큰 용도는 **롤플레이**(약 52%)와 **프로그래밍**으로, 두 카테고리가 OSS 토큰 사용량의 대부분 차지  
  - 롤플레이가 50% 이상을 차지하는 것은 오픈 모델이 콘텐츠 필터가 덜 제약적이어서 판타지나 엔터테인먼트 애플리케이션에 매력적임을 반영  
  - **중국 OSS 모델**의 경우 롤플레이가 약 33%로 가장 크지만, 프로그래밍과 기술이 합쳐서 39%로 과반 차지  
    - Qwen, DeepSeek 등이 코드 생성과 인프라 관련 워크로드에 점점 더 많이 사용  
  - 프로그래밍 카테고리에서 OSS 내 점유율이 중국 OSS와 서양 OSS 간에 역동적으로 변화  
    - 2025년 중반에는 중국 OSS가 주도했으나, Q4에는 Meta LLaMA-2 Code, OpenAI GPT-OSS 시리즈 등 서양 OSS가 급증  
  - 롤플레이 트래픽은 2025년 말 기준 **RoW OSS(43%)와 폐쇄형(42%)** 이 거의 균등하게 분담, 초기 70% 폐쇄형 지배에서 크게 변화  
  
### 에이전틱 추론의 부상  
- ## 추론 모델이 전체 사용량의 절반 이상 차지  
  - 추론 최적화 모델을 통한 토큰 점유율이 2025년 초 미미한 수준에서 **50% 초과**로 급증  
  - GPT-5, Claude 4.5, Gemini 3 등 고성능 시스템 출시와 다단계 논리, 에이전트 스타일 워크플로우에 대한 사용자 선호가 이 변화 주도  
  - 최근 데이터 기준 **xAI Grok Code Fast 1**이 추론 트래픽 최대 점유율, Google Gemini 2.5 Pro/Flash가 뒤를 이음  
  - 오픈 모델인 OpenAI gpt-oss-120b도 상당한 점유율 유지, 개발자들이 가능할 때 OSS 선호  
- ## 도구 호출 채택 증가  
  - **Tool Call** 종료 이유로 분류된 요청의 토큰 점유율이 지속적으로 상승 추세  
  - 도구 호출은 처음에 OpenAI gpt-4o-mini, Anthropic Claude 3.5/3.7 시리즈에 집중되었으나, 2025년 중반 이후 더 많은 모델이 도구 제공 지원  
  - 2025년 9월 말 이후 **Claude 4.5 Sonnet**이 빠르게 점유율 확대, `Grok Code Fast`, `GLM 4.5`도 진출  
- ## 프롬프트-완성 형태의 변화  
  - 평균 **프롬프트 토큰**이 약 1.5K에서 6K 이상으로 약 4배 증가  
  - 평균 **완성 토큰**도 약 150에서 400으로 거의 3배 증가, 주로 추론 토큰 증가에 기인  
  - 프로그래밍 관련 작업이 **프롬프트 토큰 증가의 주요 동력**으로, 20K 이상의 입력 토큰을 자주 사용  
  - 다른 카테고리들은 상대적으로 평탄하고 낮은 볼륨 유지  
- ## 더 긴 시퀀스, 더 복잡한 상호작용  
  - 평균 시퀀스 길이가 지난 20개월 동안 2,000 토큰 미만에서 **5,400 토큰 이상**으로 3배 이상 증가  
  - 프로그래밍 관련 프롬프트가 일반 목적 프롬프트보다 평균 **3~4배 긴 토큰 길이** 기록  
  - 긴 시퀀스는 사용자의 장황함이 아니라 **내장된 정교한 에이전틱 워크플로우의 특징**  
- ## 함의: 에이전틱 추론이 새로운 기본값  
  - 추론 점유율 증가, 도구 사용 확대, 시퀀스 연장, 프로그래밍의 복잡성 증가 등이 LLM 사용의 중심축 이동을 시사  
  - 중간 LLM 요청은 더 이상 단순한 질문이나 고립된 지시가 아니라 **구조화된 에이전트 유사 루프**의 일부  
  - 모델 제공업체는 지연 시간, 도구 처리, 컨텍스트 지원, 악의적 도구 체인에 대한 견고성이 점점 중요  
  - **곧, 아직 아니라면, 에이전틱 추론이 추론의 대부분을 차지할 전망**  
  
### 카테고리: 사람들이 LLM을 어떻게 사용하는가?  
- ## 지배적 카테고리  
  - **프로그래밍**이 가장 일관되게 확장되는 카테고리로, 2025년 초 약 11%에서 최근 **50% 초과**  
  - Anthropic Claude 시리즈가 프로그래밍 관련 지출의 **60% 이상** 지속적으로 장악  
    - 11월 17일 주간에 처음으로 60% 이하로 하락  
  - OpenAI는 7월 이후 약 2%에서 8%로 점유율 확대, Google은 약 15%로 안정 유지  
  - MiniMax가 빠르게 부상하는 진입자로 주목  
- ## 카테고리 내 태그 구성  
  - **롤플레이**: 약 60%가 _Games/Roleplaying Games_, 캐주얼 챗봇보다 구조화된 롤플레이 또는 캐릭터 엔진으로 활용  
    - _Writers Resources_(15.6%), _Adult_ 콘텐츠(15.4%)도 포함  
  - **프로그래밍**: 2/3 이상이 _Programming/Other_로 라벨링, 광범위한 범용 코드 관련 프롬프트 특성  
    - _Development Tools_(26.4%)와 스크립팅 언어의 작은 점유율로 신흥 전문화 징후  
  - **번역, 과학, 건강** 등은 상대적으로 평탄한 내부 구조  
    - 번역: _Foreign Language Resources_(51.1%)와 _Other_로 거의 균등 분할  
    - 과학: _Machine Learning & AI_(80.4%)가 지배, 대부분 메타 AI 질문  
    - 건강: 가장 세분화된 카테고리로 단일 하위 태그가 25% 초과하지 않음  
  - **금융, 학술, 법률**은 훨씬 분산되어 있어 단일 태그가 20% 미만  
- ## 제공업체별 인사이트  
  - **Anthropic Claude**: 프로그래밍+기술 사용이 80% 초과, 롤플레이와 일반 Q&A는 소량  
  - **Google**: 번역, 과학, 기술, 일반 지식 등 다양한 구성, 코딩 점유율은 2025년 말 약 18%로 하락  
  - **xAI**: 대부분 기간 동안 **프로그래밍**이 80% 초과, 11월 말에만 기술, 롤플레이, 학술 등으로 확대  
    - 무료 배포로 인한 비개발자 트래픽 유입과 연관  
  - **OpenAI**: 2025년 초 과학 작업이 절반 이상이었으나 말에는 15% 미만으로 감소  
    - 프로그래밍과 기술 관련 사용이 각각 29%로 절반 이상 차지  
  - **DeepSeek**: 롤플레이, 캐주얼 채팅, 엔터테인먼트 지향 상호작용이 2/3 이상 지배  
  - **Qwen**: 프로그래밍이 전체 기간 동안 40~60% 일관 유지, 과학, 기술, 롤플레이 등에서 주간 변동성 높음  
  
### 지역: LLM 사용이 지역별로 어떻게 다른가  
- ## 지역별 사용 분포  
  - **북미**가 단일 최대 지역이나 관찰 기간 대부분에서 총 지출의 절반 미만  
  - **유럽**은 주간 지출 점유율이 10~20%대에서 안정적으로 유지  
  - **아시아**가 프론티어 모델 생산자뿐 아니라 빠르게 확장하는 소비자로 부상  
    - 데이터셋 초기 약 13%에서 최근 약 **31%** 로 점유율 2배 이상 증가  
  - 대륙별 분포: 북미 47.22%, 아시아 28.61%, 유럽 21.32%, 오세아니아 1.18%, 남미 1.21%, 아프리카 0.46%  
  - 상위 10개국: 미국(47.17%), 싱가포르(9.21%), 독일(7.51%), 중국(6.01%), 한국(2.88%), 네덜란드(2.65%), 영국(2.52%), 캐나다(1.90%), 일본(1.77%), 인도(1.62%)  
- ## 언어 분포  
  - **영어**가 82.87%로 지배적  
  - 중국어 간체(4.95%), 러시아어(2.47%), 스페인어(1.43%), 태국어(1.03%), 기타(7.25%)  
  
### LLM 사용자 유지율 분석  
- ## 신데렐라 '유리 구두' 현상  
  - 대부분의 리텐션 차트가 높은 이탈과 빠른 코호트 감소로 지배되나, **초기 사용자 코호트**가 시간이 지나도 내구성 있는 유지율 보임  
  - 이러한 **기초 코호트(foundational cohorts)** 는 워크로드가 깊고 지속적인 **워크로드-모델 적합성**을 달성한 사용자들을 대표  
  - **유리 구두 효과**: 급변하는 AI 생태계에서 각 새 프론티어 모델이 이전에 미충족된 고가치 워크로드에 "시험되고", 기술적·경제적 제약에 정확히 맞을 때 강력한 락인 효과 발생  
  - `Gemini 2.5 Pro`의 2025년 6월 코호트와 `Claude 4 Sonnet`의 5월 코호트가 5개월 차에 약 **40%** 유지율로 후속 코호트보다 현저히 높음  
  - **GPT-4o Mini**: 단일 기초 코호트(2024년 7월)가 출시 시 지배적이고 끈끈한 워크로드-모델 적합성 확립, 이후 모든 코호트는 동일하게 이탈  
  - **Gemini 2.0 Flash, Llama 4 Maverick**: 높은 성과의 기초 코호트가 형성되지 않아 모든 코호트가 동일하게 저조, "프론티어"로 인식되지 못함  
  - **DeepSeek 모델들의 부메랑 효과**: 일반적인 단조 감소 대신 _부활 점프_ 현상 관찰  
    - DeepSeek R1의 2025년 4월 코호트가 3개월 차에, DeepSeek Chat V3-0324의 7월 코호트가 2개월 차에 유지율 상승  
    - 대안을 시도한 후 돌아오는 사용자들을 나타냄  
- ## 함의  
  - 첫 번째로 문제를 해결하는 것이 **지속적 우위**로 작용  
  - 코호트 수준 유지율 패턴이 모델 차별화의 경험적 신호  
  - 프론티어 윈도우의 시간적 제약: 모델이 기초 사용자를 확보할 수 있는 창은 좁고 일시적이나 장기 채택 역학에 결정적  
  - 기초 코호트는 실질적 기술 진보의 지문이자 AI 모델이 신기함에서 필수품으로 전환한 지점  
  
### 비용 vs 사용 역학  
- ## 카테고리별 AI 워크로드 세분화 분석  
  - 중간 비용 **$0.73/1M 토큰**을 기준으로 4사분면 프레임워크 구성  
  - **프리미엄 워크로드(우상단)**: 고비용-고사용 애플리케이션, `technology`와 `science` 포함  
    - `technology`가 가장 비싸면서도 높은 사용량 유지, 복잡한 시스템 설계나 아키텍처에 강력한 모델 필요 시사  
  - **대중 시장 볼륨 드라이버(좌상단)**: 고사용-저비용, `roleplay`, `programming`, `science` 지배  
    - `programming`이 "킬러 프로페셔널" 카테고리로 최고 사용량에 고도로 최적화된 중간 비용  
    - `roleplay`의 사용량이 `programming`에 버금가는 수준으로 소비자 지향 롤플레이가 최상위 전문적 용도와 동등한 참여 유도  
  - **전문 전문가(우하단)**: 저볼륨-고비용, `finance`, `academia`, `health`, `marketing` 포함  
    - 고위험 니치 전문 도메인으로 정확성, 신뢰성, 도메인 특화 지식에 대한 수요 높음  
  - **니치 유틸리티(좌하단)**: 저비용-저볼륨, `translation`, `legal`, `trivia` 포함  
    - 기능적이고 비용 최적화된 유틸리티, 상품화되어 저렴한 대안 이용 가능  
- ## AI 모델의 유효 비용 vs 사용  
  - 로그-로그 스케일에서 가격과 사용량 간 상관관계가 약함, 추세선이 거의 평탄  
  - **수요가 상대적으로 가격 비탄력적**: 가격 10% 하락 시 사용량 약 0.5~0.7% 증가  
  - 두 개의 뚜렷한 체제: 폐쇄형 모델(OpenAI, Anthropic)이 고비용-고사용 구역, 오픈 모델(DeepSeek, Mistral, Qwen)이 저비용-고볼륨 구역  
  - **4가지 사용-비용 아키타입**:  
    - _프리미엄 리더_: Claude 3.7 Sonnet, Claude Sonnet 4 등 약 $2/1M 토큰으로 높은 사용량 달성  
    - _효율적 거인_: Gemini 2.0 Flash, DeepSeek V3 0324 등 $0.40/1M 토큰 미만으로 유사한 사용량  
    - _롱테일_: Qwen 2 7B Instruct, IBM Granite 4.0 Micro 등 수 센트/1M 토큰이나 약한 성능이나 제한된 가시성으로 낮은 사용량  
    - _프리미엄 전문가_: GPT-4, GPT-5 Pro 등 약 $35/1M 토큰으로 저사용량, 고위험 워크로드에 한정 사용  
  - **Jevons 역설**의 증거: 매우 저렴하고 빠른 모델이 더 많은 작업에 사용되어 총 토큰 소비 증가  
  - 품질과 역량이 종종 비용을 능가: 비싼 모델(Claude, GPT-4)의 높은 사용량은 모델이 현저히 우수하거나 신뢰 우위가 있으면 사용자들이 높은 비용 감수  
  
### 논의  
  
- **멀티모델 생태계**: 단일 모델이 모든 사용을 지배하지 않으며, 폐쇄형과 오픈 모델 모두 상당한 점유율 확보  
- **생산성 이상의 사용 다양성**: 오픈소스 모델 사용량의 절반 이상이 롤플레이와 스토리텔링  
  - 소비자 지향 애플리케이션, 개인화, AI와 엔터테인먼트 IP 간 크로스오버에 대한 기회 부각  
- **에이전트 vs 인간: 에이전틱 추론의 부상**: 단일 턴 상호작용에서 에이전틱 추론으로 전환, 모델이 계획하고 추론하며 여러 단계에 걸쳐 실행  
- **지역적 전망**: LLM 사용이 점점 **글로벌하고 분산화**, 아시아 점유율이 13%에서 31%로 상승, 중국이 주요 세력으로 부상  
- **비용 vs 사용 역학**: LLM 시장은 아직 상품이 아님, 가격만으로는 사용량 설명 부족  
  - 오픈소스 모델이 지속적으로 **효율적 프론티어** 밀어붙이며 폐쇄형 시스템의 가격 결정력 압축  
- **유지율과 신데렐라 유리 구두 현상**: 기초 모델이 도약할 때 유지율이 방어가능성의 진정한 척도  
  - 모델-워크로드 적합성이 핵심 경쟁력  
  
### 한계  
  
- 단일 플랫폼(OpenRouter)의 유한한 시간 창에서 관찰된 패턴으로 더 넓은 생태계의 부분적 시야만 제공  
- 기업 사용, 로컬 호스팅 배포, 폐쇄된 내부 시스템 등은 데이터 범위 외  
- 일부 분석이 **프록시 측정**에 의존: 다단계 또는 도구 호출로 에이전틱 추론 식별, 청구 기반 지역 추론 등  
- 결과는 결정적 측정보다는 **지시적 행동 패턴**으로 해석 필요  
  
### 결론  
  
- LLM이 세계 컴퓨팅 인프라에 통합되는 방식에 대한 실증적 시각 제공  
- 지난 해 o1급 모델 출현으로 **추론**에 대한 인식이 단계적 변화 촉발, 단일 샷 벤치마크를 넘어 프로세스 기반 지표, 지연-비용 트레이드오프, 오케스트레이션 하 성공으로 평가 전환  
- LLM 생태계는 **구조적으로 다원적**, 사용자가 역량, 지연, 가격, 신뢰 등 여러 축에 따라 시스템 선택  
- 추론 자체도 변화 중: 정적 완성에서 **동적 오케스트레이션**으로, 에이전틱 추론 부상  
- 지역적으로 **더 분산화**, 아시아 점유율 확대, 중국이 모델 개발자이자 수출자로 부상  
- o1이 경쟁을 종료하지 않고 **디자인 공간을 확장**, 모놀리식 베팅 대신 시스템 사고, 직관 대신 계측, 리더보드 델타 대신 경험적 사용 분석으로 이동  
- 다음 단계는 운영 우수성에 집중: 실제 작업 완료 측정, 분포 변화 하 분산 감소, 프로덕션 규모 워크로드의 실제 요구에 모델 행동 정렬

## Comments



_No public comments on this page._
