Price Per Token (토큰당 가격)

▲

GN⁺ 9달전 | parent | ★ favorite | on: Price Per Token (토큰당 가격) – LLM API 가격 데이터(pricepertoken.com)

Hacker News 의견

(OpenRouter에서 일함) 우리는 가격과 모델 정보를 API로 제공하는 공급 업체와 협업해 이 문제를 해결했음, 이로 인해 마켓플레이스의 정보를 항상 최신으로 유지할 수 있게 되었음, 1년 전에는 슬랙 채널에서 대화로 내용을 공유하던 시절이 생각남, 최근에는 공급 업체마다 프롬프트 길이, 캐싱 등 여러 요소로 인해 토큰 가격 체계가 매우 복잡해졌음, 사실 중요한 포인트는 모델 단위가 아니라 endpoint 단위의 토큰당 가격임, 예를 들어 빠른/느린 버전, thinking/non-thinking 등 동일 모델임에도 endpoint에 따라 가격이 달라지는 경우가 많음, 이 모든 과정을 해결하기 위해 많은 노력을 쏟았고 현재 결과물은 OpenRouter에서 공개 중임(아직 가격 위주로 보기 쉽게 정리된 포맷이 아니라는 점은 인정함)
- 지금 바로 더 간결하고 쉽게 볼 수 있게 시도해 봤음, 노력에 정말 감사함, llm-pricing 프로젝트 공유함
데이터가 잘못된 게 아닌지 궁금함, Google Gemini 2.5 Flash-Lite의 입력 토큰당 가격은 $0.10인데 여기서는 $0.40로 표시된 걸로 보임, 공식 가격 표 참고 바람
- 데이터가 틀린 게 아니라 내 표를 잘못 읽은 것 같음, (수정: 내가 잘못 답한 것 같음, 그렇게 답변한 건 좋지 않았음)
이 정보는 훌륭하지만, 실제로 UX 측면에서는 더 많은 고려가 필요함
- 동일한 모델이어도 공급 업체에 따라 가격이 다르고
- 각 공급 업체가 속도, 비용 등 다른 기준에 최적화함
- 동일 모델이라도 서로 다른 양자화 버전이 존재함
- Grok API처럼 일괄(batch) 요금제를 제공하는 곳도 있음
- “thinking/non-thinking”, 다중모달 여부 등 추가로 필터링할 수 있는 조건도 엄청 많음
- 벤치마크 점수 역시 변수임
  blended cost(입출력 종합 요금)를 제공하는 artificialanalysis.ai처럼 어느 정도 참고가 되지만, 실제로는 사용 목적에 따라 Input/Output 요금 모델 역시 계속 달라질 수 있음, 정말 좋은 비교 UI를 가진 사이트가 나올 때까지 기대 중임, 누가 언제 꼭 만들어주면 좋겠음
- (OpenRouter에서 일함) 사실 웹사이트에는 잘 드러나지 않지만 매우 간단한 모델 비교 도구가 있음, 예시: OpenRouter 모델 비교 페이지 참고 바람
- “provider”라는 컬럼, 즉 실제로 API 호출이 이루어지는 위치를 표에 추가하면 이 문제를 해결할 수 있을지 궁금함
- 공정한 비교를 만드는 건 매우 어려울 것 같음, 최선은 각 조건의 트레이드오프를 명확히 보여주고 사용자가 직접 판단할 수 있게 하는 것임, 토큰 거래소(token exchange)처럼 사용자가 요구사항을 올리고, 기업이 그에 맞는 서비스를 경쟁적으로 제공하는 플랫폼도 아이디어로 흥미로움, 누구나 자신의 컴퓨팅 성능을 공유하는 마켓플레이스도 상상할 수 있지만, 실제 실력을 속이거나 데이터를 유출하는 문제는 별도로 해결책을 마련해야 할 부분임
- 제발 더이상 벤치마크 순위를 중시하지 말았으면 함, 과도하게 이런 비교에 집착하게 만든 분위기가 지속되어 안타까움
예전에는 새로 출시된 모델의 요금을 찾으려면 수많은 홍보 페이지를 전전하며 매우 답답했음, 이제는 OpenRouter에서 한눈에 확인할 수 있어 편리함
핵심 문제는 토큰이 공급 업체/모델마다 다르다는 것임, tokenizer 모델을 넘어서 같은 업체 내에서도 엄청난 차이가 존재함
- 예를 들어 이미지 입력의 경우 gpt-4o-mini는 gpt-4에 비해 10배 더 많은 토큰을 소모함
- gemini 2.5 pro의 output은 일반적으로 토큰 단위로 과금되지만, structured output을 사용할 경우 문자 하나당 토큰으로 간주함
- 토큰당 가격 정보가 중요하긴 하지만, 실제로는 같은 쿼리/응답이 모델마다 얼마의 비용이 드는지를 알고 싶은게 진짜 필요임, 모든 토큰이 동일하지 않기 때문임
- 매일 동일 실험을 돌려보고 그 비용을 표에 컬럼으로 추가할 계획임, 예를 들어 "이 기사 200단어로 요약" 프롬프트를 모든 모델에 동일하게 입력한 결과로 측정할 수 있음
- gemini 2.5 pro에서 structured output을 쓰면 문자=토큰 방식이라는 설명에 대해 더 자세히 듣고 싶음, 차이점을 잘 모르겠음
지금은 사이트가 다운이지만, Simon Willison의 LLM 가격 계산기도 추천하고 싶음 (llm-prices.com)
하드웨어에 $2500 정도 예산이 있다면 어떤 모델을 로컬로 돌릴 수 있을지 궁금함, 만약 부족하다면 어느 정도 예산이 필요하고, 로컬에서 직접 돌리는 방법에 관한 튜토리얼이 있으면 알려주면 좋겠음
- 로컬 LLM 활용에 관심 있다면 ollama.com이 시작점임, 노드 수를 RAM 용량(GB)로 환산할 수 있음, 예시로 Deepseek-r1:7b 모델은 7GB 정도 필요함, 컨텍스트 윈도우가 클수록 더 많은 메모리가 필요함, $2500 예산으로 AI 기기 맞출 계획이면 LPDDR5처럼 유니파이드 메모리가 많은 구성을 추천함, 참고 링크: Framework AIMax300
- 18개월 전 $1900 주고 Mac Mini M2Pro 32GB를 샀고, 양자화된 40B 로컬 모델까지 충분히 잘 돌림, 로컬 모델이 성능이 부족할 경우엔 Gemini 2.5 flash/pro와 gemini-cli 조합을 쓰기도 함, 상업용 API와 로컬 모델 둘 다 좋은 옵션이 많으니 한 가지씩 골라 빠르게 구축 작업에 집중하는 게 제일 좋음
- $600 근처에 중고 3090 그래픽카드를 2장 구입하는 게 최고임, 여전히 3090은 가성비가 뛰어남
- Kimi와 deepseek만이 주요 클라우드 제공 업체들과 비교해도 성능 차이가 크지 않은 몇 안 되는 모델임
- ollama 계열 모델은 괜찮은 CPU만 있어도 일부 모델은 무리없이 돌릴 수 있음
공급 업체별 요금 정보를 알기 위해 웹 사이트마다 돌아다녀야 하는 상황이 유일했는데, OpenRouter가 좋은 대안임, 오픈 모델까지 함께 목록화되어 있고 실제 모델의 진짜 가격/규모, 그리고 현재 얼마나 보조금을 받고 있는지 대략적으로 파악할 수 있음
- OpenRouter API에는 모델과 가격 정보를 조회할 수 있는 endpoint가 있음 (OpenRouter 모델 API 문서), 단점은 한 모델당 한 공급 업체 정보만 제공해줌, 상용 모델에는 문제가 없으나, 오픈소스 모델은 공급 업체마다 가격 차이가 5~10배까지 크게 나기 때문에 참고용으로만 활용해야 함
가격 데이터와 일반적인 벤치마크 정보를 합쳐 “가성비(benchmark 점수/토큰 비용)”가 가장 좋은 모델이 무엇인지 보여주는 자료가 있었으면 함
각 공급 업체마다 요금 정책이 단순 input/output 과금이 아니라 훨씬 복잡함
- DeepSeek의 오프피크 타임 요금
- OpenAI/Anthropic의 batch 요금
- Google/Grok의 컨텍스트 윈도우별 요금
- Qwen의 thinking/non-thinking 토큰 분리 과금
- Qwen coder의 입력 토큰 tier 가격
  참고로 관련 글: X.com paradite_