Opus 4.6 및 Sonnet 4.6에서 1M 컨텍스트 일반 제공 시작
(claude.com)- Claude Opus 4.6과 Sonnet 4.6이 이제 100만 토큰(1M) 컨텍스트 윈도우를 표준 요금으로 지원, 별도 프리미엄 없이 전체 범위 사용 가능
- 요금은 동일 단가로 적용되며, Opus 4.6은 $5/$25, Sonnet 4.6은 $3/$15(입력/출력 기준)로 9K나 900K 요청 모두 동일 비율 과금
- 미디어 입력 한도 6배 확대로 최대 600개의 이미지나 PDF 페이지를 한 번에 처리 가능하며, Azure Foundry·Google Vertex AI 등에서도 즉시 사용 가능
- Claude Code의 Max, Team, Enterprise 사용자는 자동으로 1M 컨텍스트를 활용할 수 있어 세션 압축 감소 및 대화 유지력 향상
- 대규모 코드베이스, 계약서, 운영 로그 등 복잡한 장기 문맥을 유지하며 정확도와 효율성을 높이는 기능으로 평가됨
1M 컨텍스트 일반 제공 개요
- Opus 4.6과 Sonnet 4.6이 Claude Platform에서 1M 컨텍스트 윈도우를 표준 요금으로 제공
- Opus 4.6은 백만 토큰당 $5(입력)/$25(출력), Sonnet 4.6은 $3/$15
- 요청 크기에 따른 요율 차등 없음
- 장문 컨텍스트 프리미엄 제거, 모든 컨텍스트 길이에서 동일 처리량 유지
- 미디어 입력 한도 6배 증가: 최대 600개의 이미지 또는 PDF 페이지 지원
- 베타 헤더 불필요, 200K 토큰 초과 요청도 자동 처리
Claude Code 통합
-
Claude Code의 Max, Team, Enterprise 플랜에서 Opus 4.6 사용 시 1M 컨텍스트 자동 활성화
- 세션 내 대화 압축(compaction) 감소
- 이전에는 추가 사용량이 필요했으나 이제 기본 포함
모델 성능 및 정확도
- Opus 4.6은 MRCR v2 기준 78.3% 로, 동일 컨텍스트 길이 모델 중 최고 성능
- 1M 컨텍스트에서도 정확도 유지 및 장문 검색 성능 향상
- 대규모 코드베이스, 계약서, 장기 에이전트 로그 등 전체 문맥을 그대로 유지하며 처리 가능
- 요약이나 컨텍스트 초기화 없이 전체 대화 유지
실제 활용 사례
- 과학 연구: 수백 편의 논문·수학적 프레임워크·시뮬레이션 코드를 한 번에 통합 분석 가능 (Alex Wissner-Gross)
- 법률 업무: 100페이지 계약서의 여러 버전을 한 세션에서 비교 가능 (Bardia Pourvakil)
- 운영 시스템 분석: 장애 대응 중 모든 신호와 가설을 한눈에 유지 (Mayank Agarwal)
- AI 연구 및 코드 리뷰: 대규모 diff 파일을 한 번에 처리해 품질 향상 (Adhyyan Sekhsaria)
- 데이터 분석 및 디버깅: Datadog·데이터베이스·소스코드 검색 시 세부 정보 손실 없이 유지 (Anton Biryukov)
- 에이전트 효율성 향상: 컨텍스트 압축 이벤트 15% 감소, 장시간 세션에서도 초기 정보 유지 (Jon Bell)
사용 가능 플랫폼 및 시작 방법
- 1M 컨텍스트는 Claude Platform, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 즉시 사용 가능
- Opus 4.6 기반 Claude Code Max, Team, Enterprise 사용자는 기본적으로 1M 컨텍스트 적용
- 세부 내용은 공식 문서(documentation) 및 요금 안내(pricing) 페이지에서 확인 가능
Hacker News 의견들
-
Opus 4.6은 정말 놀라운 수준임
프론트엔드, 백엔드, 알고리즘 등 어떤 작업을 던져도 잘 처리함
PRD로 시작해 단계별 계획을 세우고 하나씩 실행하면 몇 시간 만에 실제로 동작하는 결과물이 나옴
처음으로 “이건 나보다 똑똑한 것 같음”이라는 생각이 든 AI였음
게다가 지금 기술로는 초당 1k 토큰 속도로 여러 에이전트를 동시에 돌릴 수도 있음- 나도 이런 경험을 해보고 싶었음
Opus 4.6 기반 Claude Code에 React 코드 리팩터링을 맡겼는데, useState/useEffect → useMemo로 바꾸는 작업이었음
계획은 훌륭했지만, 일부 코드에서 변수 선언을 잘못된 위치에 두는 바람에 undefined 참조가 생김
수정하려 하니 오히려 구조를 크게 바꾸려 해서 결국 수작업으로 고쳤음
그래도 전체적으로는 시간은 절약됐지만 꽤 짜증나는 경험이었음 - 어떤 걸 만들고 있는지 궁금함
나는 Opus 4.6으로 데이터베이스 diff 툴 테스트 하네스를 만들려 했는데, 엉뚱한 기존 툴용 테스트를 생성함
테스트 코드가 실제 함수를 호출하지 않고 직접 로직을 구현해버림
4시간과 $75를 쓰고 나서야 겨우 돌아가는 걸 얻었지만 품질은 별로였음
회사에서도 Claude 사용 예산을 늘리라는 지시가 있었는데, 다들 비슷하게 고생 중임
지금은 VS Studio에서 부분 수정이나 디버깅에 쓰는 게 훨씬 효율적임 - 한 번 AI 루프에 빠진 적이 있었음
지형 수조에 퇴적물이 쌓이는 계산 문제였는데, Opus가 세 가지 상충된 설명을 계속 반복함
세 번 시도해도 같은 루프에 빠져서 결국 강제로 brute force 접근으로 해결했음
사람이라면 두 번째쯤엔 이런 루프에 빠지지 않았을 것 같음 - 내 기준에서 Opus 4.6은 이미 AGI 수준임
단순히 지시를 따르는 게 아니라, 요청하지 않은 개선 아이디어를 스스로 제안함
- 나도 이런 경험을 해보고 싶었음
-
이번 업데이트의 핵심은 1M 토큰 윈도우 전체에 표준 요금 적용과 600개 이미지/PDF 페이지 지원임
Claude Code 사용자에게는 큰 변화임- 1M 윈도우를 꽉 채워 쓰는 게 과연 유용한지 의문임
나는 Dex Horthy의 연구처럼 40% 이하(약 80k 토큰)로 유지하는 게 안정적이었음
참고로 “No vibes allowed” 영상은 여기 - 회사에서 1M 윈도우를 실제 업무에 쓰고 있음
700k 토큰까지는 괜찮았지만 그 이상부터는 조금씩 둔해지는 느낌이 있었음
완전 자동화보다는 페어 프로그래밍 모드로 쓰는 게 더 안정적임 - 컨텍스트가 커질수록 입력 토큰 비용이 커짐
800k 입력은 100k의 8배 비용이므로, 캐시가 안 맞으면 API 요금 폭탄이 될 수 있음 - “그럼 이미지 하나는 1,666단어 가치인가?”라는 농담을 던짐
- 내 경우 1M 윈도우에서 코딩 품질이 급격히 저하됨
대화 중 맥락을 자주 잊어버림
- 1M 윈도우를 꽉 채워 쓰는 게 과연 유용한지 의문임
-
그냥 직접 코드를 쓰는 게 낫다는 의견을 던짐
-
나는 커리어가 Python에서 C/C++로 옮겨갔음
Opus는 Python에서는 나보다 더 잘할 때도 있지만, 임베디드 쪽에서는 아직 주니어 수준임
결국 훈련 데이터 품질의 문제라고 생각함
그래서 LLM이 하드웨어 엔지니어를 대체할 일은 당분간 없을 것 같음 -
나는 AI가 만든 코드의 thrashing 문제를 막기 위해 CI 체크를 만들었음
에이전트가 테스트 실패를 반복 수정하다가 허상 import나 deprecated API를 넣는 경우가 많았음
그래서 PR마다 가벼운 스캔을 돌려 존재하지 않는 npm 패키지나 문맥 이탈을 잡아냄
기존 정적 분석은 문법만 보지만, AI 코드는 의미적으로 잘못된 경우가 많음
앞으로 이런 도메인 지식 기반 검증이 필수라고 봄 -
100k 토큰 근처에서 성능이 떨어지는 이유를 묻는 글이 있었음
실제 사용 가능한 컨텍스트는 더 작다는 의견이 많음- 나는 Opus 4.6에서는 그런 성능 저하를 거의 못 느꼈음
아마 예전 경험이 남아 있어서 생긴 착각일 수도 있음 - 내 경험상 컨텍스트 부패(context rot) 는 여전함
90k 토큰을 쓰면 100k든 1M이든 비슷하게 나빠짐
대규모 코드베이스에서는 프롬프트 품질이 핵심임 - 벤치마크 차트가 이미 그 답변 자체라고 생각함
- Transformer의 주의(attention) 복잡도가 컨텍스트 크기에 따라 제곱으로 늘어나므로
1M 토큰을 처리하려면 여러 근사 기법을 써야 하고, 그게 성능 저하의 원인일 수 있음
- 나는 Opus 4.6에서는 그런 성능 저하를 거의 못 느꼈음
-
Claude Code 2.1.75에서는 기본 Opus와 1M Opus의 구분이 사라짐
Pro 요금제에서도 그렇게 보이지만 실제로는 여전히 제한이 있음
아마 Anthropic이 GPT 5.4의 1M 윈도우 경쟁에 대응하려는 전략 같음- Max 20x에서는 여전히 별도 모델로 존재함
- Pro에서는 여전히 1M 컨텍스트는 추가 요금이 붙음
-
Claude의 가격 정책이 이상함
5X 플랜이 이전 플랜의 정확히 5배 가격임
보통은 대량 구매 시 할인인데 여긴 없음- Anthropic은 이미 수요가 공급을 초과하고 있어서, 더 많이 쓰게 유도할 필요가 없음
오히려 한 사용자가 5배 쓰는 것보다 5명이 나눠 쓰는 게 낫다고 판단한 듯함 - 5X 플랜은 유도용이고, 실제로는 20x 플랜을 팔기 위한 전략임
- “볼륨으로 메우면 되겠지”라는 농담을 던짐
- 두 플랜 모두 보조금이 들어간 좋은 딜이라는 의견도 있음
- Anthropic은 이미 수요가 공급을 초과하고 있어서, 더 많이 쓰게 유도할 필요가 없음
-
오늘 써보니 정말 흥미로운 변화임
여러 서브에이전트 병렬 세션을 한 번의 마스터 세션에 담을 수 있게 됨
Opus 1M은 GPT 5.4의 256k 수준과 비슷하다고 하지만, 품질 저하가 거의 없음
다만 q4 ’25 모델처럼 급격히 떨어지지는 않음- Sonnet 4.5 1M을 자주 썼는데, 성능은 비슷하지만 속도는 훨씬 빨랐음
토큰을 아끼지 않고 적극적으로 사용했기 때문인 듯함 - 개인 결제인지 회사 결제인지 묻는 댓글도 있었음
회사는 GitHub Copilot만 지원한다고 함
- Sonnet 4.5 1M을 자주 썼는데, 성능은 비슷하지만 속도는 훨씬 빨랐음
-
긴 세션이 토큰 예산을 빠르게 소모하는지 묻는 질문이 있었음
대화가 길어질수록 이전 맥락이 계속 재전송되기 때문임- 맞음. 캐시를 써도 800k 토큰이면 요청당 약 $0.40 정도로 금방 누적됨
툴 호출이 잦으면 분당 여러 번 청구될 수 있음 -
컨텍스트 캐싱을 잘 활용하면 비용을 크게 줄일 수 있음
최대 900k 토큰까지 캐시 가능함
- 맞음. 캐시를 써도 800k 토큰이면 요청당 약 $0.40 정도로 금방 누적됨