(OpenRouter에서 일함) 우리는 가격과 모델 정보를 API로 제공하는 공급 업체와 협업해 이 문제를 해결했음, 이로 인해 마켓플레이스의 정보를 항상 최신으로 유지할 수 있게 되었음, 1년 전에는 슬랙 채널에서 대화로 내용을 공유하던 시절이 생각남, 최근에는 공급 업체마다 프롬프트 길이, 캐싱 등 여러 요소로 인해 토큰 가격 체계가 매우 복잡해졌음, 사실 중요한 포인트는 모델 단위가 아니라 endpoint 단위의 토큰당 가격임, 예를 들어 빠른/느린 버전, thinking/non-thinking 등 동일 모델임에도 endpoint에 따라 가격이 달라지는 경우가 많음, 이 모든 과정을 해결하기 위해 많은 노력을 쏟았고 현재 결과물은 OpenRouter에서 공개 중임(아직 가격 위주로 보기 쉽게 정리된 포맷이 아니라는 점은 인정함)
데이터가 잘못된 게 아닌지 궁금함, Google Gemini 2.5 Flash-Lite의 입력 토큰당 가격은 $0.10인데 여기서는 $0.40로 표시된 걸로 보임, 공식 가격 표 참고 바람
데이터가 틀린 게 아니라 내 표를 잘못 읽은 것 같음, (수정: 내가 잘못 답한 것 같음, 그렇게 답변한 건 좋지 않았음)
이 정보는 훌륭하지만, 실제로 UX 측면에서는 더 많은 고려가 필요함
동일한 모델이어도 공급 업체에 따라 가격이 다르고
각 공급 업체가 속도, 비용 등 다른 기준에 최적화함
동일 모델이라도 서로 다른 양자화 버전이 존재함
Grok API처럼 일괄(batch) 요금제를 제공하는 곳도 있음
“thinking/non-thinking”, 다중모달 여부 등 추가로 필터링할 수 있는 조건도 엄청 많음
벤치마크 점수 역시 변수임
blended cost(입출력 종합 요금)를 제공하는 artificialanalysis.ai처럼 어느 정도 참고가 되지만, 실제로는 사용 목적에 따라 Input/Output 요금 모델 역시 계속 달라질 수 있음, 정말 좋은 비교 UI를 가진 사이트가 나올 때까지 기대 중임, 누가 언제 꼭 만들어주면 좋겠음
(OpenRouter에서 일함) 사실 웹사이트에는 잘 드러나지 않지만 매우 간단한 모델 비교 도구가 있음, 예시: OpenRouter 모델 비교 페이지 참고 바람
“provider”라는 컬럼, 즉 실제로 API 호출이 이루어지는 위치를 표에 추가하면 이 문제를 해결할 수 있을지 궁금함
공정한 비교를 만드는 건 매우 어려울 것 같음, 최선은 각 조건의 트레이드오프를 명확히 보여주고 사용자가 직접 판단할 수 있게 하는 것임, 토큰 거래소(token exchange)처럼 사용자가 요구사항을 올리고, 기업이 그에 맞는 서비스를 경쟁적으로 제공하는 플랫폼도 아이디어로 흥미로움, 누구나 자신의 컴퓨팅 성능을 공유하는 마켓플레이스도 상상할 수 있지만, 실제 실력을 속이거나 데이터를 유출하는 문제는 별도로 해결책을 마련해야 할 부분임
제발 더이상 벤치마크 순위를 중시하지 말았으면 함, 과도하게 이런 비교에 집착하게 만든 분위기가 지속되어 안타까움
예전에는 새로 출시된 모델의 요금을 찾으려면 수많은 홍보 페이지를 전전하며 매우 답답했음, 이제는 OpenRouter에서 한눈에 확인할 수 있어 편리함
핵심 문제는 토큰이 공급 업체/모델마다 다르다는 것임, tokenizer 모델을 넘어서 같은 업체 내에서도 엄청난 차이가 존재함
예를 들어 이미지 입력의 경우 gpt-4o-mini는 gpt-4에 비해 10배 더 많은 토큰을 소모함
gemini 2.5 pro의 output은 일반적으로 토큰 단위로 과금되지만, structured output을 사용할 경우 문자 하나당 토큰으로 간주함
토큰당 가격 정보가 중요하긴 하지만, 실제로는 같은 쿼리/응답이 모델마다 얼마의 비용이 드는지를 알고 싶은게 진짜 필요임, 모든 토큰이 동일하지 않기 때문임
매일 동일 실험을 돌려보고 그 비용을 표에 컬럼으로 추가할 계획임, 예를 들어 "이 기사 200단어로 요약" 프롬프트를 모든 모델에 동일하게 입력한 결과로 측정할 수 있음
gemini 2.5 pro에서 structured output을 쓰면 문자=토큰 방식이라는 설명에 대해 더 자세히 듣고 싶음, 차이점을 잘 모르겠음
지금은 사이트가 다운이지만, Simon Willison의 LLM 가격 계산기도 추천하고 싶음 (llm-prices.com)
하드웨어에 $2500 정도 예산이 있다면 어떤 모델을 로컬로 돌릴 수 있을지 궁금함, 만약 부족하다면 어느 정도 예산이 필요하고, 로컬에서 직접 돌리는 방법에 관한 튜토리얼이 있으면 알려주면 좋겠음
로컬 LLM 활용에 관심 있다면 ollama.com이 시작점임, 노드 수를 RAM 용량(GB)로 환산할 수 있음, 예시로 Deepseek-r1:7b 모델은 7GB 정도 필요함, 컨텍스트 윈도우가 클수록 더 많은 메모리가 필요함, $2500 예산으로 AI 기기 맞출 계획이면 LPDDR5처럼 유니파이드 메모리가 많은 구성을 추천함, 참고 링크: Framework AIMax300
18개월 전 $1900 주고 Mac Mini M2Pro 32GB를 샀고, 양자화된 40B 로컬 모델까지 충분히 잘 돌림, 로컬 모델이 성능이 부족할 경우엔 Gemini 2.5 flash/pro와 gemini-cli 조합을 쓰기도 함, 상업용 API와 로컬 모델 둘 다 좋은 옵션이 많으니 한 가지씩 골라 빠르게 구축 작업에 집중하는 게 제일 좋음
$600 근처에 중고 3090 그래픽카드를 2장 구입하는 게 최고임, 여전히 3090은 가성비가 뛰어남
Kimi와 deepseek만이 주요 클라우드 제공 업체들과 비교해도 성능 차이가 크지 않은 몇 안 되는 모델임
ollama 계열 모델은 괜찮은 CPU만 있어도 일부 모델은 무리없이 돌릴 수 있음
공급 업체별 요금 정보를 알기 위해 웹 사이트마다 돌아다녀야 하는 상황이 유일했는데, OpenRouter가 좋은 대안임, 오픈 모델까지 함께 목록화되어 있고 실제 모델의 진짜 가격/규모, 그리고 현재 얼마나 보조금을 받고 있는지 대략적으로 파악할 수 있음
OpenRouter API에는 모델과 가격 정보를 조회할 수 있는 endpoint가 있음 (OpenRouter 모델 API 문서), 단점은 한 모델당 한 공급 업체 정보만 제공해줌, 상용 모델에는 문제가 없으나, 오픈소스 모델은 공급 업체마다 가격 차이가 5~10배까지 크게 나기 때문에 참고용으로만 활용해야 함
가격 데이터와 일반적인 벤치마크 정보를 합쳐 “가성비(benchmark 점수/토큰 비용)”가 가장 좋은 모델이 무엇인지 보여주는 자료가 있었으면 함
Hacker News 의견
blended cost(입출력 종합 요금)를 제공하는 artificialanalysis.ai처럼 어느 정도 참고가 되지만, 실제로는 사용 목적에 따라 Input/Output 요금 모델 역시 계속 달라질 수 있음, 정말 좋은 비교 UI를 가진 사이트가 나올 때까지 기대 중임, 누가 언제 꼭 만들어주면 좋겠음
참고로 관련 글: X.com paradite_