Anthropic, 2026년 3월 6일 캐시 TTL을 1시간에서 5분으로 단축
(github.com/anthropics)- 2026년 3월 초 Claude Code의 캐시 TTL이 1시간에서 5분으로 변경되어 동일한 사용 패턴에서도 서버 측 설정 차이로 인한 변화가 확인됨
- TTL 단축으로 캐시 재생성 비용이 20~32% 증가하고, 장시간 세션에서 쿼터 소모량이 급증함
- 분석 결과, 모델별로 약 17%의 추가 비용이 발생하며, 일부 사용자는 5시간 쿼터 제한에 도달하기 시작함
- Anthropic은 3월 6일 변경이 의도된 조치이며, 요청별로 TTL을 다르게 적용해 전체 비용 절감을 목표로 했다고 설명함
- 커뮤니티는 비용 상승·투명성 부족·사전 공지 부재를 비판하며, TTL 설정의 사용자 선택권 보장을 요구함
Cache TTL 변경으로 인한 비용 및 쿼터 문제 보고
- 2026년 3월 초 Anthropic의 Claude Code 캐시 TTL 기본값이 1시간에서 5분으로 변경된 것으로 분석됨
- 2026년 1월 11일부터 4월 11일까지의 119,866건의 API 호출 데이터를 기반으로 분석
- 3월 6일~8일 사이 5분 TTL이 다시 등장하며 1시간 TTL이 점차 사라짐
- 동일한 버전의 클라이언트와 동일한 사용 패턴에서 발생해 서버 측 설정 변경으로 확인됨
- TTL 변경으로 캐시 생성 비용이 20~32% 증가, 구독 사용자들의 쿼터 소모량 급증이 관찰됨
- 5분 TTL은 세션이 5분 이상 멈출 경우 캐시가 만료되어 전체 컨텍스트를 다시 업로드해야 함
- 캐시 재생성은 읽기보다 최대 12.5배 비싸며, 장시간 코딩 세션일수록 비용이 누적됨
- 1시간 TTL이 유지된 2월의 낭비율은 1.1%였으나, 3월 이후 15~53%로 급등
-
비용 분석 결과
-
claude-sonnet-4-6모델: 총비용 $5,561.17 → 1시간 TTL 기준 $4,612.09 (약 17.1% 초과 지출) -
claude-opus-4-6모델: 총비용 $9,268.97 → 1시간 TTL 기준 $7,687.17 (약 17.1% 초과 지출) - 모델 간 동일한 비율의 낭비가 일관되게 나타남
-
-
쿼터 영향
- 캐시 생성 토큰은 쿼터에 전량 반영되며, 캐시 읽기는 낮은 가중치로 계산됨
- 3월 이후 구독 사용자들이 처음으로 5시간 쿼터 제한에 도달하기 시작함
Anthropic의 공식 답변
-
변경 사실 인정: 3월 6일 변경은 의도된 조치이며, 캐시 최적화 작업의 일환으로 수행됨
- 요청 유형별로 TTL을 다르게 적용하도록 설계되어 있으며, 단일 전역 기본값은 존재하지 않음
- 1시간 TTL을 모든 요청에 적용할 경우 오히려 비용이 증가할 수 있음
- 5분 TTL은 재사용되지 않는 요청에서 더 효율적이며, 전체 요청 조합 기준으로는 총비용 절감 효과가 있음
- 버그 수정: v2.1.90에서 구독 쿼터를 모두 소진한 세션이 종료될 때까지 5분 TTL로 고정되는 클라이언트 버그 수정
-
요청사항에 대한 답변
- 변경은 있었으며, 3월 6일에 의도적으로 시행됨
- TTL은 요청별로 동적으로 선택되며, 전역 기본값은 없음
- 1시간 TTL을 기본으로 복원하거나 설정 옵션을 제공할 계획 없음
- 캐시 읽기 토큰의 쿼터 반영 방식은 별도 이슈에서 후속 안내 예정
커뮤니티 반응
-
다수의 사용자들이 비용 증가와 사용성 저하를 지적하며 불만을 제기함
- “5분 TTL은 사실상 세션을 5분마다 재시작하게 만들어 생산성을 떨어뜨린다”는 의견 다수
- “구독 사용자는 이미 요금을 선불로 지불했는데, TTL 변경으로 실질 사용 시간이 줄었다”는 지적
- “이처럼 사용자 비용에 영향을 주는 변경은 사전 공지가 필수”라는 요구가 이어짐
-
일부 사용자는 API 이용자에게는 긍정적 변화라고 언급했으나, 다른 사용자들은 “API는 원래 5분 TTL이 기본”이라며 반박
-
투명성 부족에 대한 비판이 집중됨
- “비용 관련 인프라 변경은 사후 해명보다 사전 공지가 필요하다”
- “이런 식의 ‘조용한 변경’은 신뢰를 훼손하고, 사용자들이 문제 원인을 스스로 추적해야 하는 부담을 준다”
-
문서 기록에 따르면 기본 캐시는 5분 TTL이며, 1시간 TTL은 추가 비용이 발생하는 옵션으로 제공됨
- 2026년 1월 기준 공식 문서에서도 동일한 설명이 확인됨
결론
- 2026년 3월 6일 Anthropic은 Claude Code의 캐시 TTL 정책을 1시간에서 5분으로 변경
- 회사는 이를 비용 최적화를 위한 의도된 조정으로 설명했으나, 사용자들은 비용 상승·쿼터 소진·투명성 부족을 문제로 지적
- 커뮤니티는 향후 TTL 설정의 사용자 선택권 보장과 정책 변경의 사전 공지를 요구하는 상황
Hacker News 의견들
-
최근 몇 달 사이 Claude/Codex에 대한 엔지니어들의 분위기가 확실히 달라진 느낌임
특히 비공개적인 변경이 많아지면서, 사람들이 자신이 처음 결제한 제품이 그대로인지 확신하지 못하는 불안감이 커지고 있음
요즘 Anthropic 이야기가 나오면 대부분 부정적인 맥락에서 언급되는 것 같음- 최근 Anthropic이 OpenClaw 사용자 차단, 서드파티 하니스 금지, 추론 강도 하향, 응답 길이 감소 등 여러 조치를 취한 게 인상적이었음
사용량이 갑자기 21배 늘어난 적도 있었고, 전반적으로 비용 절감 시도로 보임
여전히 Claude를 좋아하지만, 친구들에게 추천하기는 점점 어려워지고 있음 - 우리 회사(엔지니어 400명 이상)는 한 달 전 모든 IDE 구독(Visual Studio, JetBrains 등)을 취소하고 Claude Code로 전환했음
EVP가 주말에 만든 데모 두 개를 보여주며 그대로 따라 하라고 했지만, 일주일 만에 토큰 과소비로 사용 중단 공지가 내려옴
이후 매주 모델이 약화되는 느낌이라 EVP가 지금 어떤 기분일지 궁금함 - 몇 달 전까지만 해도 Claude Code가 훌륭했는데, 요즘은 오류와 오해가 많아 거의 쓸 수 없을 정도임
Codex로 바꿔보니 훨씬 안정적이었음
내 추측으로는 출시 직후에는 강력하게 유지하다가, 시간이 지나면 점점 성능을 줄여 다음 릴리스의 기대감을 높이는 전략 같음 - 구독 후 추론 능력 저하를 확실히 느꼈음
여러 설정을 바꾸고 스크립트로 시스템 프롬프트를 수정해봤지만, 여전히 논리적 루프에 빠지는 경우가 많음
버그인지, 의도적인 약화인지, 아니면 단순 착각인지 구분이 안 됨 - 나는 큰 문제를 느끼지 못했음
Claude에게 단계별로 리팩터링을 시키는 방식이라 그런 듯함
예전에 Grafana 설정을 물었을 때, Claude가 “그냥 추측했다”고 답한 적이 있었는데, 결국 35k 토큰을 쓰고 단순한 체크박스 하나를 알려줬음
동료들은 성능 저하를 느끼고 Cursor로 옮겨가는 중이지만, 나는 아직 Claude의 대화 흐름이 좋아서 계속 쓰고 있음
- 최근 Anthropic이 OpenClaw 사용자 차단, 서드파티 하니스 금지, 추론 강도 하향, 응답 길이 감소 등 여러 조치를 취한 게 인상적이었음
-
요즘 Claude Code와 구독 서비스가 예전보다 훨씬 덜 유용함
버그, 쿼터 소모 속도, 모델 성능 저하, 캐시 무효화 문제, 양자화 의심 등 다양한 문제가 누적되고 있음
예전엔 한 번에 프로토타입을 구현할 수 있었는데, 지금은 세부 명세가 있어도 거의 불가능함
ChatGPT도 비슷하게 약화되고 있음
Anthropic과 OpenAI 모두 근본적인 해결책은 아닌 듯함- 친구가 Cursor의 멀티모델 기능을 쓰며 만족하고 있음
몇 달 전만 해도 Cursor가 죽었다는 말이 많았는데, 지금은 오히려 잘 쓰고 있음 - 수요 폭증으로 인해 사용자 대부분이 고양자화된 모델을 통보 없이 제공받는 것 같음
- 이런 AI 서비스들은 대부분 적자 보조금 모델이라, 시간이 지나면 품질이 떨어지고 가격이 오르는 건 당연한 흐름임
- 친구가 Cursor의 멀티모델 기능을 쓰며 만족하고 있음
-
세션 쿼터 제한이 너무 빡세서 UX가 악순환에 빠짐
한 시간 캐시가 끝나면 다시 시작할 때 더 많은 비용이 들고, 결국 다음 세션도 더 빨리 소모됨
3월 중순에는 Pro 플랜에서도 한 시간 안에 세션이 끝나 사실상 사용 불가 수준이었음 -
제목 표기가 잘못되어 오해를 불러일으켰음
“M” 대신 “min”을 써야 하고, TTL이 1시간에서 5개월로 늘어난 것처럼 보이게 됨- 제목을 바꿔서 문제의 규모를 감춘 것처럼 보이는 점이 아쉬움
- 나도 처음엔 “M이 뭐지?” 하고 당황했음
-
요즘 Claude가 car wash 질문도 자주 틀림
문제 해결 난이도를 과장하거나, “시간이 너무 걸린다”며 쉬운 길을 택하려는 경향이 생김- 최근 몇 주간 시스템 프롬프트가 모델의 노력을 제한하는 느낌임
JSON 로그를 보면 “이건 너무 복잡하니 하드코딩으로 처리하자” 같은 문장이 반복됨
Anthropic이 컴퓨팅 자원 부족과 신규 사용자 급증 사이에서 균형을 찾으려는 듯함 - 예전에 Claude가 “이건 몇 주 걸린다”며 거부하던 작업을, 설득 끝에 시키자 30초 만에 완료했다는 사례도 들었음
- “적자 판매 → 패닉 → 제품 파괴”의 전형적인 단계로 보임
- 토큰 소모 속도도 빨라져서, 예전엔 3~5개 프로젝트를 병행했는데 지금은 하나도 끝내기 힘듦
- “위험 따위 신경 쓰지 말고 그냥 해!” 같은 강한 프롬프트를 쓰면 모델이 다시 적극적으로 행동함
다소 공격적이지만 효과적인 LLM 동기 부여법임
- 최근 몇 주간 시스템 프롬프트가 모델의 노력을 제한하는 느낌임
-
Anthropic이 GitHub 이슈에서 공식 답변을 남김
- 스레드를 읽어보면 마치 Claude가 다른 Claude들과 대화하는 듯한 느낌이 들었음
- 3월 6일 변경을 인정한 점은 흥미로움. 프롬프트 분석으로 밝혀낸 사람들에게 박수를 보냄
- 회사의 설명은 논리적이었지만, “cache read likelihood” 같은 용어가 허세처럼 들려 커뮤니티가 제대로 받아들이지 못한 듯함
-
나는 직접 API 기반 채팅 툴을 만들어 캐시를 붙였음
5분 캐시로는 대화 템포가 맞지 않아 자주 만료되지만, 공통 프리픽스가 있는 툴에서는 절약 효과가 큼
캐시를 잘 활용하면 비용 절감이 상당함 -
캐시 만료 정책이 5시간 세션과 맞지 않아서, 세션 사용량 97%쯤에서 4분 50초마다 최소 토큰을 소비하는 스크립트로 캐시를 유지하는 방법을 고려 중임
-
Dwarkesh 팟캐스트에서 Anthropic이 컴퓨팅 자원 확충에 신중하다는 이야기를 들었음
수요 급증 시에는 계산량을 줄이려는 시도가 불가피하다고 함
돈을 더 투입해도 단기적으로는 해결되지 않을 문제임- 이런 현상은 보통 신규 모델 사전학습 단계에서 자주 나타남. 3.x 때도 그랬음
-
Anthropic/Claude의 이상한 변화들과 별개로, 이번 게시물의 표 데이터를 보면 2월과 4월의 비용과 호출 수가 거의 일치해서 혼란스러움
내가 뭘 놓친 건지 모르겠음