속도가 2.5배 빨라졌지만 가격은 6배임
꽤 비싼 프리미엄임. 특히 Gemini 3 Pro는 Opus 4.6 대비 초당 토큰 속도가 1.8배인데 가격은 0.45배 수준임
다만 코딩 성능은 떨어지고, Gemini CLI는 아직 Claude Code만큼의 에이전트 능력이 없음
토큰당 6배 가격이면 초당으로는 15배 가격임. 게다가 이건 API 기준이고, 구독 요금제는 훨씬 저렴함
결국 큰 고객(whale) 들이 빠르게 돈을 쓰게 만드는 흥미로운 구조임
Gemini는 프론트엔드 작업에는 꽤 괜찮음
Gemini CLI 대신 OpenCode를 쓸 수도 있음
느린 모드(slow-mode)가 있으면 좋겠음. 낮은 비용의 spot GPU로 작업을 예약 실행할 수 있게 하는 기능임
나는 종종 점심시간이나 퇴근 전에 프로세스를 돌리는데, 즉시 실행될 필요는 없음. 유휴 GPU에서 저렴하게 돌면 충분함
나도 같은 생각임. 밤에 50% 요금으로 돌릴 수 있다면 좋겠음. 다만 Claude Code에는 아직 통합되어 있지 않음
이미 할인된 MAX 요금제는 사실상 느린 모드로 동작함
시간 민감하지 않다면 GPU 대신 CPU/RAM으로 돌리는 것도 방법임
이 모드는 구독 요금제의 남은 사용량을 활용할 수 없음
빠른 모드 사용량은 항상 별도로 과금되며, 플랜에 포함된 토큰과 무관하게 첫 토큰부터 추가 요금이 부과됨
현재는 $50 무료 추가 사용량 이벤트가 있음
결국 쓸모가 거의 없음. Claude Max를 써도 TDD 중에는 사용량 관리가 필요함
ccusage 툴로 보면 API 기준 하루 $200까지 나올 수 있음. 6배 요금이면 $50이 20분 만에 사라짐
나에게는 이 기능이 크게 유용하지 않을 것 같음
병목은 모델이 아니라 내가 LLM이 생성한 코드를 이해하는 속도임
실제 코드를 꼼꼼히 보지 않는 사람들도 많음. 요즘 세상 참 흥미로움
속도가 충분히 빨라진다면 코드를 읽기보다 질문을 던지는 방식으로 쓸 텐데, 아직은 그 수준이 아님
코드를 ‘느낌’으로 짜는 사람들은 이해보다는 결과에 집중함
테스트 하니스와 검증 절차를 잘 만들어두면 코드를 직접 보지 않아도 신뢰할 수 있음
“Fast mode를 언제 쓸지 결정하기” 문서를 보면,
장기 실행 에이전트나 백그라운드 작업은 일반 모드
사람이 개입하는 시나리오는 빠른 모드
이런 구분을 의도한 듯함. 다만 요금 체계가 합리적인지는 의문임
Opus의 API 요금도 이미 비싸서, 결국 고가형 서비스로 남을 듯함
가성비를 중시하는 사람들은 병렬 실행으로 해결할 것임
내 일반적인 워크플로는 계획 단계와 구현 단계로 나뉨
빠른 모드는 계획 단계에서 가장 유용할 것 같음
“컨텍스트 초기화 후 빠른 모드로 실행”뿐 아니라,
“컨텍스트 초기화 후 일반 속도로 실행” 옵션도 있었으면 함
탐색형 에이전트는 느려도 괜찮지만, 계획을 빠르게 반복할 수 있으면 훨씬 효율적일 것임
일반 Pro 계정은 사실상 느린 모드임
나는 지금 Kimi2.5 CLI를 테스트 중인데, 속도도 빠르고 웹 인터페이스도 제공되어 VPN 환경에서도 원격으로 쓸 수 있음
이제는 Hacker News를 그냥 Claude 마케팅 블로그로 CNAME 해도 될 듯함
그러면 simonw의 자기 홍보 글들을 놓치게 됨
사실 OpenAI 관련 글이 훨씬 많음. 이름을 차라리 AINews로 바꾸는 게 나을지도 모르겠음
속도 향상의 원인이 궁금함. 단순한 우선순위 조정만으로는 어려워 보임
새로운 하드웨어(Groq, Cerebras 등)일 수도 있음. 일부 클라우드에서만 제공되는 걸 보면 가능성 있음
앞으로 LLM 제공사들이 “속도 vs 지능”을 분리해 가격을 매길지도 궁금함
GPU에서 배치 처리와 멀티 스트림을 늘려 토큰 처리량을 높이는 방식임
배치를 크게 하면 병렬성은 늘지만 개별 요청 속도는 느려짐. SemiAnalysis InferenceMAX™ 그래프를 보면 GPU당 처리량과 토큰 속도 간의 파레토 곡선이 존재함
하드웨어 업그레이드나 트래픽 우선순위 조정 외에도, 배치 윈도우를 줄이거나 KV 캐시를 GPU에 유지하는 등 다양한 조정이 가능함
단순히 대기열을 건너뛰는 우선순위 기반 모델일 수도 있음. 돈을 더 벌기 쉬운 방법이니까
내부용으로 먼저 구현했을 수도 있음. 실제로는 단순한 우선순위 조정이지만, 외부 고객이 많지 않을 거라 예상했을 수도 있음
혹은 Nvidia GB300(Blackwell) 같은 신형 GPU를 쓸 가능성도 있음
“Claude가 C 컴파일러를 만들었다”는 글을 보고, Anthropic과 OpenAI 같은 연구소의 사내 추론 속도가 궁금해졌음
추론 속도가 빠를수록 소프트웨어 시장을 장악하기 유리함
Anthropic이 2.5배 속도를 공개했다면, 내부적으로는 5~10배 빠른 모드를 쓰고 있을지도 모름
에이전트들이 서로 협상하는 미래에서는 가장 빠른 연산력이 승자가 될 것임
Anthropic은 이미 내부에서 쓰던 2.5배 모드를 공식 API로 공개했다고 밝힘
일부 서버는 개별 요청 속도를 높이기 위해 전체 처리량을 희생했을 가능성이 있음.
아마도 새로운 세대의 하드웨어에서 실행 중일 수도 있음
“10배 성능을 숨기고 있다”는 건 말이 안 됨. SaaS 기업이 시장 경쟁 중에 그런 여유는 없음
현실적으로는 병렬화로 2.5배 속도 향상을 얻은 것뿐임
기본 속도를 인위적으로 늦춰서 빠른 모드에 돈을 쓰게 만드는, 일종의 속도 인질 모델처럼 보이기도 함
Hacker News 의견들
속도가 2.5배 빨라졌지만 가격은 6배임
꽤 비싼 프리미엄임. 특히 Gemini 3 Pro는 Opus 4.6 대비 초당 토큰 속도가 1.8배인데 가격은 0.45배 수준임
다만 코딩 성능은 떨어지고, Gemini CLI는 아직 Claude Code만큼의 에이전트 능력이 없음
결국 큰 고객(whale) 들이 빠르게 돈을 쓰게 만드는 흥미로운 구조임
느린 모드(slow-mode)가 있으면 좋겠음. 낮은 비용의 spot GPU로 작업을 예약 실행할 수 있게 하는 기능임
나는 종종 점심시간이나 퇴근 전에 프로세스를 돌리는데, 즉시 실행될 필요는 없음. 유휴 GPU에서 저렴하게 돌면 충분함
이 모드는 구독 요금제의 남은 사용량을 활용할 수 없음
빠른 모드 사용량은 항상 별도로 과금되며, 플랜에 포함된 토큰과 무관하게 첫 토큰부터 추가 요금이 부과됨
현재는 $50 무료 추가 사용량 이벤트가 있음
ccusage 툴로 보면 API 기준 하루 $200까지 나올 수 있음. 6배 요금이면 $50이 20분 만에 사라짐
나에게는 이 기능이 크게 유용하지 않을 것 같음
병목은 모델이 아니라 내가 LLM이 생성한 코드를 이해하는 속도임
“Fast mode를 언제 쓸지 결정하기” 문서를 보면,
이런 구분을 의도한 듯함. 다만 요금 체계가 합리적인지는 의문임
가성비를 중시하는 사람들은 병렬 실행으로 해결할 것임
내 일반적인 워크플로는 계획 단계와 구현 단계로 나뉨
빠른 모드는 계획 단계에서 가장 유용할 것 같음
“컨텍스트 초기화 후 빠른 모드로 실행”뿐 아니라,
“컨텍스트 초기화 후 일반 속도로 실행” 옵션도 있었으면 함
탐색형 에이전트는 느려도 괜찮지만, 계획을 빠르게 반복할 수 있으면 훨씬 효율적일 것임
일반 Pro 계정은 사실상 느린 모드임
나는 지금 Kimi2.5 CLI를 테스트 중인데, 속도도 빠르고 웹 인터페이스도 제공되어 VPN 환경에서도 원격으로 쓸 수 있음
이제는 Hacker News를 그냥 Claude 마케팅 블로그로 CNAME 해도 될 듯함
속도 향상의 원인이 궁금함. 단순한 우선순위 조정만으로는 어려워 보임
새로운 하드웨어(Groq, Cerebras 등)일 수도 있음. 일부 클라우드에서만 제공되는 걸 보면 가능성 있음
앞으로 LLM 제공사들이 “속도 vs 지능”을 분리해 가격을 매길지도 궁금함
배치를 크게 하면 병렬성은 늘지만 개별 요청 속도는 느려짐.
SemiAnalysis InferenceMAX™ 그래프를 보면 GPU당 처리량과 토큰 속도 간의 파레토 곡선이 존재함
“Claude가 C 컴파일러를 만들었다”는 글을 보고, Anthropic과 OpenAI 같은 연구소의 사내 추론 속도가 궁금해졌음
추론 속도가 빠를수록 소프트웨어 시장을 장악하기 유리함
Anthropic이 2.5배 속도를 공개했다면, 내부적으로는 5~10배 빠른 모드를 쓰고 있을지도 모름
에이전트들이 서로 협상하는 미래에서는 가장 빠른 연산력이 승자가 될 것임
일부 서버는 개별 요청 속도를 높이기 위해 전체 처리량을 희생했을 가능성이 있음.
아마도 새로운 세대의 하드웨어에서 실행 중일 수도 있음
현실적으로는 병렬화로 2.5배 속도 향상을 얻은 것뿐임