# 2.5배 빠르고 6배 비싼 Claude Opus 4.6 Fast Mode 공개

> Clean Markdown view of GeekNews topic #26499. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26499](https://news.hada.io/topic?id=26499)
- GeekNews Markdown: [https://news.hada.io/topic/26499.md](https://news.hada.io/topic/26499.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-08T11:44:43+09:00
- Updated: 2026-02-08T11:44:43+09:00
- Original source: [x.com/claudeai](https://x.com/claudeai/status/2020207322124132504)
- Points: 13
- Comments: 3

## Summary

**Claude Opus 4.6 Fast Mode**는 동일한 모델을 사용하면서 API 구성을 조정해 **지연 시간을 크게 줄인** 실험적 옵션입니다. 빠른 반복이나 실시간 디버깅처럼 응답 속도가 중요한 대화형 작업에 맞춰 설계되었으며, CLI나 VS Code 확장에서 `/fast` 명령으로 손쉽게 전환할 수 있습니다. 표준 모드보다 최대 **2.5배 빠르지만 토큰 단가는 약 6배 높게 책정**되어, 속도와 비용 사이의 선택이 필요합니다. 실제 써보면 체감상 3배 이상 빠르다는데 너무 비싸긴 하네요.

## Topic Body

- 동일한 **Opus 4.6 모델**을 사용하되 API 구성을 바꿔 **지연 시간을 최소화**  
- 빠른 반복, 라이브 디버깅 등 시간에 민감한 **대화형 작업**에 최적화  
- CLI 또는 VS Code 확장에서 `/fast` 입력해 **온·오프 토글** 또는 사용자 설정 파일에 `"fastMode": true`로 **상시 활성화**  
- 활성화 시 **자동으로 Opus 4.6으로 전환**되며, 상태 메시지와 `↯` 아이콘 표시  
- 패스트 모드는 **표준 Opus 4.6 대비 토큰 단가가 상승**  
  - 200K 미만 컨텍스트에서 입력 $30/MTok, 출력 $150/MTok 적용 (표준은 입력 $5 출력 $25)  
  - 200K 초과 컨텍스트에서 입력 $60/MTok, 출력 $225/MTok 적용 (표준은 입력 $10 출력 $37.5)  
  - 2/16일 까지는 50% 할인 적용  
- 패스트 모드 전용의 **별도 레이트 리밋**이 적용되며, 한도 초과 또는 크레딧 소진 시 **표준 모드로 자동 폴백**  
- 패스트 모드는 **연구 미리보기**로 제공, 기능·가격이 변경될 수 있음

## Comments


### Comment 50864

- Author: neo
- Created: 2026-02-09T10:28:44+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46926043)   
- 속도가 2.5배 빨라졌지만 **가격은 6배**임  
  꽤 비싼 프리미엄임. 특히 [Gemini 3 Pro](https://artificialanalysis.ai/leaderboards/models)는 Opus 4.6 대비 초당 토큰 속도가 1.8배인데 가격은 0.45배 수준임  
  다만 코딩 성능은 떨어지고, Gemini CLI는 아직 Claude Code만큼의 **에이전트 능력**이 없음  
  - 토큰당 6배 가격이면 초당으로는 15배 가격임. 게다가 이건 API 기준이고, 구독 요금제는 훨씬 저렴함  
    결국 **큰 고객(whale)** 들이 빠르게 돈을 쓰게 만드는 흥미로운 구조임  
  - Gemini는 프론트엔드 작업에는 꽤 괜찮음  
  - Gemini CLI 대신 **OpenCode**를 쓸 수도 있음  
  
- 느린 모드(slow-mode)가 있으면 좋겠음. 낮은 비용의 **spot GPU**로 작업을 예약 실행할 수 있게 하는 기능임  
  나는 종종 점심시간이나 퇴근 전에 프로세스를 돌리는데, 즉시 실행될 필요는 없음. 유휴 GPU에서 저렴하게 돌면 충분함  
  - [Batches API](https://platform.claude.com/docs/en/build-with-claude/batch-processing)는 표준 API 대비 50% 요금으로 실행됨  
  - OpenAI도 예전에 비슷한 **배치 처리 기능**을 제공했음  
  - 나도 같은 생각임. 밤에 50% 요금으로 돌릴 수 있다면 좋겠음. 다만 Claude Code에는 아직 통합되어 있지 않음  
  - 이미 할인된 **MAX 요금제**는 사실상 느린 모드로 동작함  
  - 시간 민감하지 않다면 GPU 대신 CPU/RAM으로 돌리는 것도 방법임  
  
- 이 모드는 구독 요금제의 남은 사용량을 활용할 수 없음  
  빠른 모드 사용량은 항상 별도로 과금되며, 플랜에 포함된 토큰과 무관하게 첫 토큰부터 **추가 요금**이 부과됨  
  현재는 $50 무료 추가 사용량 이벤트가 있음  
  - 결국 쓸모가 거의 없음. Claude Max를 써도 TDD 중에는 사용량 관리가 필요함  
    ccusage 툴로 보면 API 기준 하루 $200까지 나올 수 있음. 6배 요금이면 $50이 20분 만에 사라짐  
  
- 나에게는 이 기능이 크게 유용하지 않을 것 같음  
  병목은 모델이 아니라 내가 LLM이 생성한 코드를 이해하는 **속도**임  
  - 실제 코드를 꼼꼼히 보지 않는 사람들도 많음. 요즘 세상 참 흥미로움  
  - 속도가 충분히 빨라진다면 코드를 읽기보다 질문을 던지는 방식으로 쓸 텐데, 아직은 그 수준이 아님  
  - 코드를 ‘느낌’으로 짜는 사람들은 이해보다는 결과에 집중함  
  - 테스트 하니스와 검증 절차를 잘 만들어두면 코드를 직접 보지 않아도 신뢰할 수 있음  
  
- “Fast mode를 언제 쓸지 결정하기” 문서를 보면,  
  - 장기 실행 에이전트나 백그라운드 작업은 일반 모드  
  - **사람이 개입하는 시나리오**는 빠른 모드  
  이런 구분을 의도한 듯함. 다만 **요금 체계가 합리적인지는 의문**임  
  - Opus의 API 요금도 이미 비싸서, 결국 **고가형 서비스**로 남을 듯함  
    가성비를 중시하는 사람들은 병렬 실행으로 해결할 것임  
  
- 내 일반적인 워크플로는 계획 단계와 구현 단계로 나뉨  
  빠른 모드는 계획 단계에서 가장 유용할 것 같음  
  “컨텍스트 초기화 후 빠른 모드로 실행”뿐 아니라,  
  “컨텍스트 초기화 후 일반 속도로 실행” 옵션도 있었으면 함  
  탐색형 에이전트는 느려도 괜찮지만, 계획을 빠르게 반복할 수 있으면 훨씬 효율적일 것임  
  
- 일반 Pro 계정은 사실상 **느린 모드**임  
  나는 지금 Kimi2.5 CLI를 테스트 중인데, 속도도 빠르고 웹 인터페이스도 제공되어 VPN 환경에서도 원격으로 쓸 수 있음  
  
- 이제는 Hacker News를 그냥 **Claude 마케팅 블로그**로 CNAME 해도 될 듯함  
  - 그러면 simonw의 자기 홍보 글들을 놓치게 됨  
  - 사실 OpenAI 관련 글이 훨씬 많음. 이름을 차라리 **AINews**로 바꾸는 게 나을지도 모르겠음  
  
- 속도 향상의 원인이 궁금함. 단순한 **우선순위 조정**만으로는 어려워 보임  
  새로운 하드웨어(Groq, Cerebras 등)일 수도 있음. 일부 클라우드에서만 제공되는 걸 보면 가능성 있음  
  앞으로 LLM 제공사들이 “속도 vs 지능”을 분리해 가격을 매길지도 궁금함  
  - GPU에서 **배치 처리와 멀티 스트림**을 늘려 토큰 처리량을 높이는 방식임  
    배치를 크게 하면 병렬성은 늘지만 개별 요청 속도는 느려짐.  
    [SemiAnalysis InferenceMAX™ 그래프](https://inferencemax.semianalysis.com/)를 보면 GPU당 처리량과 토큰 속도 간의 **파레토 곡선**이 존재함  
  - 하드웨어 업그레이드나 트래픽 우선순위 조정 외에도, **배치 윈도우**를 줄이거나 KV 캐시를 GPU에 유지하는 등 다양한 조정이 가능함  
  - 단순히 대기열을 건너뛰는 **우선순위 기반 모델**일 수도 있음. 돈을 더 벌기 쉬운 방법이니까  
  - 내부용으로 먼저 구현했을 수도 있음. 실제로는 단순한 우선순위 조정이지만, 외부 고객이 많지 않을 거라 예상했을 수도 있음  
  - 혹은 **Nvidia GB300(Blackwell)** 같은 신형 GPU를 쓸 가능성도 있음  
  
- “Claude가 C 컴파일러를 만들었다”는 글을 보고, Anthropic과 OpenAI 같은 연구소의 **사내 추론 속도**가 궁금해졌음  
  추론 속도가 빠를수록 소프트웨어 시장을 장악하기 유리함  
  Anthropic이 2.5배 속도를 공개했다면, 내부적으로는 5~10배 빠른 모드를 쓰고 있을지도 모름  
  에이전트들이 서로 협상하는 미래에서는 **가장 빠른 연산력**이 승자가 될 것임  
  - Anthropic은 이미 내부에서 쓰던 2.5배 모드를 [공식 API로 공개](https://x.com/claudeai/status/2020207322124132504)했다고 밝힘  
    일부 서버는 개별 요청 속도를 높이기 위해 전체 처리량을 희생했을 가능성이 있음.  
    아마도 **새로운 세대의 하드웨어**에서 실행 중일 수도 있음  
  - “10배 성능을 숨기고 있다”는 건 말이 안 됨. SaaS 기업이 시장 경쟁 중에 그런 여유는 없음  
    현실적으로는 **병렬화로 2.5배 속도 향상**을 얻은 것뿐임  
  - 기본 속도를 인위적으로 늦춰서 빠른 모드에 돈을 쓰게 만드는, 일종의 **속도 인질 모델**처럼 보이기도 함

### Comment 50860

- Author: kimjoin2
- Created: 2026-02-09T10:09:00+09:00
- Points: 1

"다음 태스크 뭐가 좋을까?"  
한번에 3.46$ 결제가 추가되고 구독 모델로는 커버가 안되는 것 같내요.  
얼마전에 50$ 주는건 이거 써보라고 줬던 것 같기도 합니다 ㅋㅋㅋ

### Comment 50816

- Author: elbum
- Created: 2026-02-08T12:38:57+09:00
- Points: 1

이제 점점 부자들만 쓰는 AI 로 가네요  ...