2.5배 빠르고 6배 비싼 Claude Opus 4.6

▲

GN⁺ 3달전 | parent | ★ favorite | on: 2.5배 빠르고 6배 비싼 Claude Opus 4.6 Fast Mode 공개 (x.com/claudeai)

Hacker News 의견들

속도가 2.5배 빨라졌지만 가격은 6배임
꽤 비싼 프리미엄임. 특히 Gemini 3 Pro는 Opus 4.6 대비 초당 토큰 속도가 1.8배인데 가격은 0.45배 수준임
다만 코딩 성능은 떨어지고, Gemini CLI는 아직 Claude Code만큼의 에이전트 능력이 없음
- 토큰당 6배 가격이면 초당으로는 15배 가격임. 게다가 이건 API 기준이고, 구독 요금제는 훨씬 저렴함
  결국 큰 고객(whale) 들이 빠르게 돈을 쓰게 만드는 흥미로운 구조임
- Gemini는 프론트엔드 작업에는 꽤 괜찮음
- Gemini CLI 대신 OpenCode를 쓸 수도 있음
느린 모드(slow-mode)가 있으면 좋겠음. 낮은 비용의 spot GPU로 작업을 예약 실행할 수 있게 하는 기능임
나는 종종 점심시간이나 퇴근 전에 프로세스를 돌리는데, 즉시 실행될 필요는 없음. 유휴 GPU에서 저렴하게 돌면 충분함
- Batches API는 표준 API 대비 50% 요금으로 실행됨
- OpenAI도 예전에 비슷한 배치 처리 기능을 제공했음
- 나도 같은 생각임. 밤에 50% 요금으로 돌릴 수 있다면 좋겠음. 다만 Claude Code에는 아직 통합되어 있지 않음
- 이미 할인된 MAX 요금제는 사실상 느린 모드로 동작함
- 시간 민감하지 않다면 GPU 대신 CPU/RAM으로 돌리는 것도 방법임
이 모드는 구독 요금제의 남은 사용량을 활용할 수 없음
빠른 모드 사용량은 항상 별도로 과금되며, 플랜에 포함된 토큰과 무관하게 첫 토큰부터 추가 요금이 부과됨
현재는 $50 무료 추가 사용량 이벤트가 있음
- 결국 쓸모가 거의 없음. Claude Max를 써도 TDD 중에는 사용량 관리가 필요함
  ccusage 툴로 보면 API 기준 하루 $200까지 나올 수 있음. 6배 요금이면 $50이 20분 만에 사라짐
나에게는 이 기능이 크게 유용하지 않을 것 같음
병목은 모델이 아니라 내가 LLM이 생성한 코드를 이해하는 속도임
- 실제 코드를 꼼꼼히 보지 않는 사람들도 많음. 요즘 세상 참 흥미로움
- 속도가 충분히 빨라진다면 코드를 읽기보다 질문을 던지는 방식으로 쓸 텐데, 아직은 그 수준이 아님
- 코드를 ‘느낌’으로 짜는 사람들은 이해보다는 결과에 집중함
- 테스트 하니스와 검증 절차를 잘 만들어두면 코드를 직접 보지 않아도 신뢰할 수 있음
“Fast mode를 언제 쓸지 결정하기” 문서를 보면,
- 장기 실행 에이전트나 백그라운드 작업은 일반 모드
- 사람이 개입하는 시나리오는 빠른 모드
  이런 구분을 의도한 듯함. 다만 요금 체계가 합리적인지는 의문임
- Opus의 API 요금도 이미 비싸서, 결국 고가형 서비스로 남을 듯함
  가성비를 중시하는 사람들은 병렬 실행으로 해결할 것임
내 일반적인 워크플로는 계획 단계와 구현 단계로 나뉨
빠른 모드는 계획 단계에서 가장 유용할 것 같음
“컨텍스트 초기화 후 빠른 모드로 실행”뿐 아니라,
“컨텍스트 초기화 후 일반 속도로 실행” 옵션도 있었으면 함
탐색형 에이전트는 느려도 괜찮지만, 계획을 빠르게 반복할 수 있으면 훨씬 효율적일 것임
일반 Pro 계정은 사실상 느린 모드임
나는 지금 Kimi2.5 CLI를 테스트 중인데, 속도도 빠르고 웹 인터페이스도 제공되어 VPN 환경에서도 원격으로 쓸 수 있음
이제는 Hacker News를 그냥 Claude 마케팅 블로그로 CNAME 해도 될 듯함
- 그러면 simonw의 자기 홍보 글들을 놓치게 됨
- 사실 OpenAI 관련 글이 훨씬 많음. 이름을 차라리 AINews로 바꾸는 게 나을지도 모르겠음
속도 향상의 원인이 궁금함. 단순한 우선순위 조정만으로는 어려워 보임
새로운 하드웨어(Groq, Cerebras 등)일 수도 있음. 일부 클라우드에서만 제공되는 걸 보면 가능성 있음
앞으로 LLM 제공사들이 “속도 vs 지능”을 분리해 가격을 매길지도 궁금함
- GPU에서 배치 처리와 멀티 스트림을 늘려 토큰 처리량을 높이는 방식임
  배치를 크게 하면 병렬성은 늘지만 개별 요청 속도는 느려짐.
  SemiAnalysis InferenceMAX™ 그래프를 보면 GPU당 처리량과 토큰 속도 간의 파레토 곡선이 존재함
- 하드웨어 업그레이드나 트래픽 우선순위 조정 외에도, 배치 윈도우를 줄이거나 KV 캐시를 GPU에 유지하는 등 다양한 조정이 가능함
- 단순히 대기열을 건너뛰는 우선순위 기반 모델일 수도 있음. 돈을 더 벌기 쉬운 방법이니까
- 내부용으로 먼저 구현했을 수도 있음. 실제로는 단순한 우선순위 조정이지만, 외부 고객이 많지 않을 거라 예상했을 수도 있음
- 혹은 Nvidia GB300(Blackwell) 같은 신형 GPU를 쓸 가능성도 있음
“Claude가 C 컴파일러를 만들었다”는 글을 보고, Anthropic과 OpenAI 같은 연구소의 사내 추론 속도가 궁금해졌음
추론 속도가 빠를수록 소프트웨어 시장을 장악하기 유리함
Anthropic이 2.5배 속도를 공개했다면, 내부적으로는 5~10배 빠른 모드를 쓰고 있을지도 모름
에이전트들이 서로 협상하는 미래에서는 가장 빠른 연산력이 승자가 될 것임
- Anthropic은 이미 내부에서 쓰던 2.5배 모드를 공식 API로 공개했다고 밝힘
  일부 서버는 개별 요청 속도를 높이기 위해 전체 처리량을 희생했을 가능성이 있음.
  아마도 새로운 세대의 하드웨어에서 실행 중일 수도 있음
- “10배 성능을 숨기고 있다”는 건 말이 안 됨. SaaS 기업이 시장 경쟁 중에 그런 여유는 없음
  현실적으로는 병렬화로 2.5배 속도 향상을 얻은 것뿐임
- 기본 속도를 인위적으로 늦춰서 빠른 모드에 돈을 쓰게 만드는, 일종의 속도 인질 모델처럼 보이기도 함