13P by xguru 2달전 | ★ favorite | 댓글 3개
  • 동일한 Opus 4.6 모델을 사용하되 API 구성을 바꿔 지연 시간을 최소화
  • 빠른 반복, 라이브 디버깅 등 시간에 민감한 대화형 작업에 최적화
  • CLI 또는 VS Code 확장에서 /fast 입력해 온·오프 토글 또는 사용자 설정 파일에 "fastMode": true상시 활성화
  • 활성화 시 자동으로 Opus 4.6으로 전환되며, 상태 메시지와 아이콘 표시
  • 패스트 모드는 표준 Opus 4.6 대비 토큰 단가가 상승
    • 200K 미만 컨텍스트에서 입력 $30/MTok, 출력 $150/MTok 적용 (표준은 입력 $5 출력 $25)
    • 200K 초과 컨텍스트에서 입력 $60/MTok, 출력 $225/MTok 적용 (표준은 입력 $10 출력 $37.5)
    • 2/16일 까지는 50% 할인 적용
  • 패스트 모드 전용의 별도 레이트 리밋이 적용되며, 한도 초과 또는 크레딧 소진 시 표준 모드로 자동 폴백
  • 패스트 모드는 연구 미리보기로 제공, 기능·가격이 변경될 수 있음
Hacker News 의견들
  • 속도가 2.5배 빨라졌지만 가격은 6배
    꽤 비싼 프리미엄임. 특히 Gemini 3 Pro는 Opus 4.6 대비 초당 토큰 속도가 1.8배인데 가격은 0.45배 수준임
    다만 코딩 성능은 떨어지고, Gemini CLI는 아직 Claude Code만큼의 에이전트 능력이 없음

    • 토큰당 6배 가격이면 초당으로는 15배 가격임. 게다가 이건 API 기준이고, 구독 요금제는 훨씬 저렴함
      결국 큰 고객(whale) 들이 빠르게 돈을 쓰게 만드는 흥미로운 구조임
    • Gemini는 프론트엔드 작업에는 꽤 괜찮음
    • Gemini CLI 대신 OpenCode를 쓸 수도 있음
  • 느린 모드(slow-mode)가 있으면 좋겠음. 낮은 비용의 spot GPU로 작업을 예약 실행할 수 있게 하는 기능임
    나는 종종 점심시간이나 퇴근 전에 프로세스를 돌리는데, 즉시 실행될 필요는 없음. 유휴 GPU에서 저렴하게 돌면 충분함

    • Batches API는 표준 API 대비 50% 요금으로 실행됨
    • OpenAI도 예전에 비슷한 배치 처리 기능을 제공했음
    • 나도 같은 생각임. 밤에 50% 요금으로 돌릴 수 있다면 좋겠음. 다만 Claude Code에는 아직 통합되어 있지 않음
    • 이미 할인된 MAX 요금제는 사실상 느린 모드로 동작함
    • 시간 민감하지 않다면 GPU 대신 CPU/RAM으로 돌리는 것도 방법임
  • 이 모드는 구독 요금제의 남은 사용량을 활용할 수 없음
    빠른 모드 사용량은 항상 별도로 과금되며, 플랜에 포함된 토큰과 무관하게 첫 토큰부터 추가 요금이 부과됨
    현재는 $50 무료 추가 사용량 이벤트가 있음

    • 결국 쓸모가 거의 없음. Claude Max를 써도 TDD 중에는 사용량 관리가 필요함
      ccusage 툴로 보면 API 기준 하루 $200까지 나올 수 있음. 6배 요금이면 $50이 20분 만에 사라짐
  • 나에게는 이 기능이 크게 유용하지 않을 것 같음
    병목은 모델이 아니라 내가 LLM이 생성한 코드를 이해하는 속도

    • 실제 코드를 꼼꼼히 보지 않는 사람들도 많음. 요즘 세상 참 흥미로움
    • 속도가 충분히 빨라진다면 코드를 읽기보다 질문을 던지는 방식으로 쓸 텐데, 아직은 그 수준이 아님
    • 코드를 ‘느낌’으로 짜는 사람들은 이해보다는 결과에 집중함
    • 테스트 하니스와 검증 절차를 잘 만들어두면 코드를 직접 보지 않아도 신뢰할 수 있음
  • “Fast mode를 언제 쓸지 결정하기” 문서를 보면,

    • 장기 실행 에이전트나 백그라운드 작업은 일반 모드
    • 사람이 개입하는 시나리오는 빠른 모드
      이런 구분을 의도한 듯함. 다만 요금 체계가 합리적인지는 의문
    • Opus의 API 요금도 이미 비싸서, 결국 고가형 서비스로 남을 듯함
      가성비를 중시하는 사람들은 병렬 실행으로 해결할 것임
  • 내 일반적인 워크플로는 계획 단계와 구현 단계로 나뉨
    빠른 모드는 계획 단계에서 가장 유용할 것 같음
    “컨텍스트 초기화 후 빠른 모드로 실행”뿐 아니라,
    “컨텍스트 초기화 후 일반 속도로 실행” 옵션도 있었으면 함
    탐색형 에이전트는 느려도 괜찮지만, 계획을 빠르게 반복할 수 있으면 훨씬 효율적일 것임

  • 일반 Pro 계정은 사실상 느린 모드
    나는 지금 Kimi2.5 CLI를 테스트 중인데, 속도도 빠르고 웹 인터페이스도 제공되어 VPN 환경에서도 원격으로 쓸 수 있음

  • 이제는 Hacker News를 그냥 Claude 마케팅 블로그로 CNAME 해도 될 듯함

    • 그러면 simonw의 자기 홍보 글들을 놓치게 됨
    • 사실 OpenAI 관련 글이 훨씬 많음. 이름을 차라리 AINews로 바꾸는 게 나을지도 모르겠음
  • 속도 향상의 원인이 궁금함. 단순한 우선순위 조정만으로는 어려워 보임
    새로운 하드웨어(Groq, Cerebras 등)일 수도 있음. 일부 클라우드에서만 제공되는 걸 보면 가능성 있음
    앞으로 LLM 제공사들이 “속도 vs 지능”을 분리해 가격을 매길지도 궁금함

    • GPU에서 배치 처리와 멀티 스트림을 늘려 토큰 처리량을 높이는 방식임
      배치를 크게 하면 병렬성은 늘지만 개별 요청 속도는 느려짐.
      SemiAnalysis InferenceMAX™ 그래프를 보면 GPU당 처리량과 토큰 속도 간의 파레토 곡선이 존재함
    • 하드웨어 업그레이드나 트래픽 우선순위 조정 외에도, 배치 윈도우를 줄이거나 KV 캐시를 GPU에 유지하는 등 다양한 조정이 가능함
    • 단순히 대기열을 건너뛰는 우선순위 기반 모델일 수도 있음. 돈을 더 벌기 쉬운 방법이니까
    • 내부용으로 먼저 구현했을 수도 있음. 실제로는 단순한 우선순위 조정이지만, 외부 고객이 많지 않을 거라 예상했을 수도 있음
    • 혹은 Nvidia GB300(Blackwell) 같은 신형 GPU를 쓸 가능성도 있음
  • “Claude가 C 컴파일러를 만들었다”는 글을 보고, Anthropic과 OpenAI 같은 연구소의 사내 추론 속도가 궁금해졌음
    추론 속도가 빠를수록 소프트웨어 시장을 장악하기 유리함
    Anthropic이 2.5배 속도를 공개했다면, 내부적으로는 5~10배 빠른 모드를 쓰고 있을지도 모름
    에이전트들이 서로 협상하는 미래에서는 가장 빠른 연산력이 승자가 될 것임

    • Anthropic은 이미 내부에서 쓰던 2.5배 모드를 공식 API로 공개했다고 밝힘
      일부 서버는 개별 요청 속도를 높이기 위해 전체 처리량을 희생했을 가능성이 있음.
      아마도 새로운 세대의 하드웨어에서 실행 중일 수도 있음
    • “10배 성능을 숨기고 있다”는 건 말이 안 됨. SaaS 기업이 시장 경쟁 중에 그런 여유는 없음
      현실적으로는 병렬화로 2.5배 속도 향상을 얻은 것뿐임
    • 기본 속도를 인위적으로 늦춰서 빠른 모드에 돈을 쓰게 만드는, 일종의 속도 인질 모델처럼 보이기도 함

"다음 태스크 뭐가 좋을까?"
한번에 3.46$ 결제가 추가되고 구독 모델로는 커버가 안되는 것 같내요.
얼마전에 50$ 주는건 이거 써보라고 줬던 것 같기도 합니다 ㅋㅋㅋ

이제 점점 부자들만 쓰는 AI 로 가네요 ...