# Price Per Token (토큰당 가격) – LLM API 가격 데이터

> Clean Markdown view of GeekNews topic #22181. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22181](https://news.hada.io/topic?id=22181)
- GeekNews Markdown: [https://news.hada.io/topic/22181.md](https://news.hada.io/topic/22181.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-07-26T10:11:35+09:00
- Updated: 2025-07-26T10:11:35+09:00
- Original source: [pricepertoken.com](https://pricepertoken.com/)
- Points: 16
- Comments: 1

## Summary

**LLM 공급업체**별로 **토큰당 가격**을 기준으로 명확하게 비용을 비교할 수 있는 데이터와 시각화 자료를 제공합니다. 각 제공자의 모델별 **입력/출력 비용 정보**를 한눈에 확인할 수 있어, **대규모 언어모델** 도입 시 **비용 대비 성능 분석**에 실질적인 참고 자료로 활용 가능합니다.

## Topic Body

- 다양한 **LLM 공급업체(예: OpenAI, Anthropic, Google)** 의 가격을 **동등한 기준(토큰당 가격)** 으로 명확히 비교 가능  
  - 제공자, 모델, Input ($/M), Output ($/M) 형태의 테이블 과 그래프 지원   
- 마지막 데이터 갱신 시점: **2025년 7월 26일**  
- 특정 모델 선택 전, **비용 대비 성능 분석**에 참고할 수 있는 기반 데이터를 제공  
- 뉴스레터 구독을 통해 **정기적으로 최신 정보 수신 가능**

## Comments


### Comment 41826

- Author: neo
- Created: 2025-07-26T10:11:35+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44682465) 
* (OpenRouter에서 일함) 우리는 가격과 모델 정보를 API로 제공하는 공급 업체와 협업해 이 문제를 해결했음, 이로 인해 마켓플레이스의 정보를 항상 최신으로 유지할 수 있게 되었음, 1년 전에는 슬랙 채널에서 대화로 내용을 공유하던 시절이 생각남, 최근에는 공급 업체마다 프롬프트 길이, 캐싱 등 여러 요소로 인해 토큰 가격 체계가 매우 복잡해졌음, 사실 중요한 포인트는 모델 단위가 아니라 endpoint 단위의 토큰당 가격임, 예를 들어 빠른/느린 버전, thinking/non-thinking 등 동일 모델임에도 endpoint에 따라 가격이 달라지는 경우가 많음, 이 모든 과정을 해결하기 위해 많은 노력을 쏟았고 현재 결과물은 OpenRouter에서 공개 중임(아직 가격 위주로 보기 쉽게 정리된 포맷이 아니라는 점은 인정함)
  * 지금 바로 더 간결하고 쉽게 볼 수 있게 시도해 봤음, 노력에 정말 감사함, [llm-pricing 프로젝트](https://github.com/tekacs/llm-pricing) 공유함
* 데이터가 잘못된 게 아닌지 궁금함, Google Gemini 2.5 Flash-Lite의 입력 토큰당 가격은 $0.10인데 여기서는 $0.40로 표시된 걸로 보임, [공식 가격 표](https://ai.google.dev/gemini-api/docs/pricing#gemini-2.5-flash-lite) 참고 바람
  * 데이터가 틀린 게 아니라 내 표를 잘못 읽은 것 같음, (수정: 내가 잘못 답한 것 같음, 그렇게 답변한 건 좋지 않았음)
* 이 정보는 훌륭하지만, 실제로 UX 측면에서는 더 많은 고려가 필요함  
  - 동일한 모델이어도 공급 업체에 따라 가격이 다르고  
  - 각 공급 업체가 속도, 비용 등 다른 기준에 최적화함  
  - 동일 모델이라도 서로 다른 양자화 버전이 존재함  
  - Grok API처럼 일괄(batch) 요금제를 제공하는 곳도 있음  
  - “thinking/non-thinking”, 다중모달 여부 등 추가로 필터링할 수 있는 조건도 엄청 많음  
  - 벤치마크 점수 역시 변수임  
  blended cost(입출력 종합 요금)를 제공하는 [artificialanalysis.ai](https://artificialanalysis.ai)처럼 어느 정도 참고가 되지만, 실제로는 사용 목적에 따라 Input/Output 요금 모델 역시 계속 달라질 수 있음, 정말 좋은 비교 UI를 가진 사이트가 나올 때까지 기대 중임, 누가 언제 꼭 만들어주면 좋겠음
  * (OpenRouter에서 일함) 사실 웹사이트에는 잘 드러나지 않지만 매우 간단한 모델 비교 도구가 있음, 예시: [OpenRouter 모델 비교 페이지](https://openrouter.ai/compare/qwen/qwen3-coder/moonshotai/kimi-k2) 참고 바람
  * “provider”라는 컬럼, 즉 실제로 API 호출이 이루어지는 위치를 표에 추가하면 이 문제를 해결할 수 있을지 궁금함
  * 공정한 비교를 만드는 건 매우 어려울 것 같음, 최선은 각 조건의 트레이드오프를 명확히 보여주고 사용자가 직접 판단할 수 있게 하는 것임, 토큰 거래소(token exchange)처럼 사용자가 요구사항을 올리고, 기업이 그에 맞는 서비스를 경쟁적으로 제공하는 플랫폼도 아이디어로 흥미로움, 누구나 자신의 컴퓨팅 성능을 공유하는 마켓플레이스도 상상할 수 있지만, 실제 실력을 속이거나 데이터를 유출하는 문제는 별도로 해결책을 마련해야 할 부분임
  * 제발 더이상 벤치마크 순위를 중시하지 말았으면 함, 과도하게 이런 비교에 집착하게 만든 분위기가 지속되어 안타까움
* 예전에는 새로 출시된 모델의 요금을 찾으려면 수많은 홍보 페이지를 전전하며 매우 답답했음, 이제는 OpenRouter에서 한눈에 확인할 수 있어 편리함
* 핵심 문제는 토큰이 공급 업체/모델마다 다르다는 것임, tokenizer 모델을 넘어서 같은 업체 내에서도 엄청난 차이가 존재함  
  - 예를 들어 이미지 입력의 경우 gpt-4o-mini는 gpt-4에 비해 10배 더 많은 토큰을 소모함  
  - gemini 2.5 pro의 output은 일반적으로 토큰 단위로 과금되지만, structured output을 사용할 경우 문자 하나당 토큰으로 간주함  
  - 토큰당 가격 정보가 중요하긴 하지만, 실제로는 같은 쿼리/응답이 모델마다 얼마의 비용이 드는지를 알고 싶은게 진짜 필요임, 모든 토큰이 동일하지 않기 때문임
  * 매일 동일 실험을 돌려보고 그 비용을 표에 컬럼으로 추가할 계획임, 예를 들어 "이 기사 200단어로 요약" 프롬프트를 모든 모델에 동일하게 입력한 결과로 측정할 수 있음
  * gemini 2.5 pro에서 structured output을 쓰면 문자=토큰 방식이라는 설명에 대해 더 자세히 듣고 싶음, 차이점을 잘 모르겠음
* 지금은 사이트가 다운이지만, Simon Willison의 LLM 가격 계산기도 추천하고 싶음 ([llm-prices.com](https://www.llm-prices.com/))
* 하드웨어에 $2500 정도 예산이 있다면 어떤 모델을 로컬로 돌릴 수 있을지 궁금함, 만약 부족하다면 어느 정도 예산이 필요하고, 로컬에서 직접 돌리는 방법에 관한 튜토리얼이 있으면 알려주면 좋겠음
  * 로컬 LLM 활용에 관심 있다면 [ollama.com](https://ollama.com/)이 시작점임, 노드 수를 RAM 용량(GB)로 환산할 수 있음, 예시로 Deepseek-r1:7b 모델은 7GB 정도 필요함, 컨텍스트 윈도우가 클수록 더 많은 메모리가 필요함, $2500 예산으로 AI 기기 맞출 계획이면 LPDDR5처럼 유니파이드 메모리가 많은 구성을 추천함, 참고 링크: [Framework AIMax300](https://frame.work/products/desktop-diy-amd-aimax300/configuration/new)
  * 18개월 전 $1900 주고 Mac Mini M2Pro 32GB를 샀고, 양자화된 40B 로컬 모델까지 충분히 잘 돌림, 로컬 모델이 성능이 부족할 경우엔 Gemini 2.5 flash/pro와 gemini-cli 조합을 쓰기도 함, 상업용 API와 로컬 모델 둘 다 좋은 옵션이 많으니 한 가지씩 골라 빠르게 구축 작업에 집중하는 게 제일 좋음
  * $600 근처에 중고 3090 그래픽카드를 2장 구입하는 게 최고임, 여전히 3090은 가성비가 뛰어남
  * Kimi와 deepseek만이 주요 클라우드 제공 업체들과 비교해도 성능 차이가 크지 않은 몇 안 되는 모델임
  * ollama 계열 모델은 괜찮은 CPU만 있어도 일부 모델은 무리없이 돌릴 수 있음
* 공급 업체별 요금 정보를 알기 위해 웹 사이트마다 돌아다녀야 하는 상황이 유일했는데, OpenRouter가 좋은 대안임, 오픈 모델까지 함께 목록화되어 있고 실제 모델의 진짜 가격/규모, 그리고 현재 얼마나 보조금을 받고 있는지 대략적으로 파악할 수 있음
  * OpenRouter API에는 모델과 가격 정보를 조회할 수 있는 endpoint가 있음 ([OpenRouter 모델 API 문서](https://openrouter.ai/docs/overview/models)), 단점은 한 모델당 한 공급 업체 정보만 제공해줌, 상용 모델에는 문제가 없으나, 오픈소스 모델은 공급 업체마다 가격 차이가 5~10배까지 크게 나기 때문에 참고용으로만 활용해야 함
* 가격 데이터와 일반적인 벤치마크 정보를 합쳐 “가성비(benchmark 점수/토큰 비용)”가 가장 좋은 모델이 무엇인지 보여주는 자료가 있었으면 함
* 각 공급 업체마다 요금 정책이 단순 input/output 과금이 아니라 훨씬 복잡함  
  - DeepSeek의 오프피크 타임 요금  
  - OpenAI/Anthropic의 batch 요금  
  - Google/Grok의 컨텍스트 윈도우별 요금  
  - Qwen의 thinking/non-thinking 토큰 분리 과금  
  - Qwen coder의 입력 토큰 tier 가격  
  참고로 관련 글: [X.com paradite_](https://x.com/paradite_/status/1947932450212221427)