Claude Opus 4.6 공개

(anthropic.com)

9P by GN⁺ 7시간전 | ★ favorite | 댓글 7개

향상된 코딩 능력과 장기적 작업 지속성을 갖춘 Anthropic의 최신 AI 모델로, 1M 토큰 컨텍스트 윈도우를 베타로 지원
주요 벤치마크에서 업계 최고 수준의 점수를 기록하며, GPT-5.2보다 약 144 Elo 포인트 우위
코드 리뷰·디버깅, 대규모 코드베이스 처리, 재무 분석·문서 작성 등 실무 중심 작업에서 성능이 강화됨
Adaptive thinking, context compaction, effort 조절 등 개발자 제어 기능이 추가되어 장기 실행형 에이전트 운영이 용이
안전성 평가에서도 오류·남용·과잉 거부율이 낮은 결과를 보여, 고성능과 안전성을 동시에 달성한 모델로 평가

Claude Opus 4.6 주요 개선점

Opus 4.6은 이전 버전 대비 계획 능력, 에이전트 지속성, 코드 품질 관리가 향상된 모델
- 대규모 코드베이스에서 더 안정적으로 작동하며, 자체 오류 탐지 및 수정 능력 강화
- 1M 토큰 컨텍스트 윈도우(베타)로 장문·복합 작업 처리 가능
일상 업무 활용성도 확대되어, 재무 분석·리서치·문서·스프레드시트·프레젠테이션 생성 등 다양한 작업 수행
Cowork 환경에서 멀티태스킹 자율 수행이 가능, 사용자를 대신해 복합 업무 처리

벤치마크 및 성능 평가

Terminal-Bench 2.0에서 최고 점수, Humanity’s Last Exam에서도 모든 프런티어 모델 중 선두
GDPval-AA 평가에서 GPT-5.2보다 약 144 Elo 포인트, Opus 4.5보다 190 포인트 높은 성능
BrowseComp 테스트에서도 최고 성능을 기록, 온라인 정보 탐색 능력 강화
MRCR v2 (1M variant) 에서 76% 점수로, Sonnet 4.5의 18.5% 대비 큰 향상
장문 컨텍스트 유지력과 정보 추적 능력이 개선되어 context rot 현상 완화

초기 사용 경험 및 파트너 피드백

내부 엔지니어링 테스트에서 복잡한 문제 해결력과 판단력이 향상됨
- 어려운 문제에서는 깊이 있는 사고를 반복하며 더 나은 결과 도출
- 단순 작업에서는 과도한 사고로 지연될 수 있어 /effort 파라미터로 조정 가능
초기 파트너들은 Opus 4.6이 자율적 실행 능력, 복잡한 요청 처리, 팀 협업 지원에서 탁월하다고 평가
- 대규모 코드베이스 탐색, 병렬 하위 작업 수행, 블로커 식별 등에서 정밀한 성능
- 법률·금융·기술 콘텐츠 분석에서 높은 정확도(예: BigLaw Bench 90.2%)
- 실제 테스트에서 40건 중 38건의 사이버보안 조사에서 Opus 4.5보다 우수한 결과
- 수백만 라인 코드 마이그레이션을 절반 시간에 완료한 사례 보고

안전성 및 보안 강화

자동화된 행동 감사에서 기만·아첨·오용 협력 등 비정렬 행동 비율이 낮음
과잉 거부율(over-refusal) 이 가장 낮은 Claude 모델
사용자 복지, 위험 요청 거부, 은밀한 유해 행동 탐지 등 새로운 안전성 평가 실시
해석가능성 연구를 통해 모델 내부 작동 원인 분석 및 잠재적 문제 탐지
사이버보안 능력 강화에 따라 6종의 신규 보안 프로브 도입, 악용 탐지 강화
방어적 활용으로 오픈소스 취약점 탐지·패치 지원, 향후 실시간 남용 차단 계획

제품 및 API 업데이트

Claude Developer Platform에서 다음 기능 추가
- Adaptive thinking: 모델이 상황에 따라 심층 사고 여부를 자동 결정
- Effort 레벨: low, medium, high(기본), max 네 단계 제공
- Context compaction (베타) : 대화가 길어질 때 오래된 컨텍스트를 요약·대체
- 1M 토큰 컨텍스트 (베타) 및 128k 출력 토큰 지원
- US-only inference 옵션 제공 (1.1배 요금)
Claude Code에 agent teams 기능 추가, 여러 에이전트가 병렬 협업 가능
Claude in Excel은 비정형 데이터 구조화·다단계 변경 처리 능력 향상
Claude in PowerPoint(리서치 프리뷰)는 슬라이드 템플릿·폰트·레이아웃을 인식해 브랜드 일관성 유지

접근 및 가격

Opus 4.6은 claude.ai, API, 주요 클라우드 플랫폼에서 즉시 사용 가능
API 모델명은 claude-opus-4-6, 가격은 $5/$25 per million tokens으로 이전과 동일
200k 토큰 초과 프롬프트에는 프리미엄 요금($10/$37.50 per million tokens) 적용

결론

Claude Opus 4.6은 장기 컨텍스트 처리, 자율적 에이전트 작업, 고급 추론 능력에서 큰 도약을 이룸
성능·안전성·개발자 제어성을 모두 강화한 모델로, 실무형 AI 도구의 새로운 기준 제시

▲

duse0001 3시간전 [-]

인터넷에 돌던 가격 인하 내용은 적용 안됐네요 ㅜ

답변달기

▲

xguru 3시간전 [-]

한정 기간 동안 50달러 상당의 추가 사용 크레딧은 준다고 하네요. ㅎㅎ

답변달기

▲

duse0001 51분전 [-]

Api 가격이 내려가면 자연스레 주간 한도가 올라갈거라 기대했는데 아쉽습니다 ㅠ 200달러 플랜 주간한도가 여유롭지않아서요..

답변달기

▲

princox 2시간전 [-]

흑 너무 짜네요.. 안트로픽은 토큰을 뿌려줘라..!!

오오 드디어~~~~

Sonnet 5를 기대했는데, Opus 4.6이었네요 ㅎㅎ

답변달기

▲

GN⁺ 7시간전 [-]

Hacker News 의견들

자전거 프레임은 좀 삐뚤지만, 펠리컨 자체는 훌륭함
그림은 여기에서 볼 수 있음
- 펠리컨 그림에 오버피팅된 게 아닐까 궁금함
- “generate” 같은 단어 선택이 모델의 결과에 영향을 주는지 궁금함
  펠리컨의 두 다리가 같은 쪽에 있는 걸 바로 눈치챘는데, 실제로는 그렇지 않다는 걸 Wikipedia에서 확인했음
  프롬프트를 반복적으로 수정해 더 현실적인 결과를 얻을 수 있는지도 실험해봤는지 궁금함
- 사실 대부분의 사람도 자전거를 제대로 못 그림
  프레임 구조나 기하학적 비율을 자주 틀림
- 애니메이션 버전도 있음
  링크
- 이런 출력물들이 결국 모델 학습에 다시 들어가 벤치마크를 통과하게 되는 시점이 오지 않을까 생각함
GPT‑5.3 Codex가 Terminal Bench에서 77.3%로 압도적인 성능을 보였음
단 35분 만에 기록이 깨졌다는 게 놀라움
- 모델 성능이 시간대나 서버 부하에 따라 달라지는데, 이런 벤치마크 신뢰성을 믿어도 되는지 의문임
  혹시 출시 직후엔 최고 성능으로 돌리고 이후엔 비용 절감을 위해 낮추는 건 아닌지 궁금함
- 광범위한 벤치마크 리포트가 없어서 benchmaxxing으로 돌아간 건 아닌지 궁금함
  직접 써본 후 의견을 나눠보고 싶음
- 점수가 10포인트나 오른 건 큰 변화인데, 실제 사용감에서도 질적 차이가 느껴질지 궁금함
  혹시 이제 벤치마크 포화 상태에 도달한 건 아닐까 생각함
- Claude swe-bench는 80.8, Codex는 56.8이라 여전히 Claude 4.6이 전반적으로 우세해 보임
Claude Code의 릴리스 노트 요약임
Opus 4.6 추가, multi-agent 협업 기능, 자동 메모리 기록, 부분 대화 요약, VSCode 개선 등 다양한 업데이트가 포함됨
- “Claude가 작업 중 자동으로 기억을 기록하고 불러온다”는 부분이 흥미로움
  메모리 기능 문서를 보면 Google Antigravity의 Knowledge 아티팩트와 비슷한 개념 같음
논의에서 두 가지가 혼동되고 있다고 생각함
첫째는 토큰 단가 기반 수익성, 둘째는 모델 생애주기 경제학임
추론 단가는 이익일 수 있지만, 전체 모델 프로그램은 여전히 적자일 수 있음
진짜 질문은 “모델이 얼마나 오래 경쟁력을 유지해야 경제적으로 맞아떨어질까”임
- “worse is better”를 기억해야 함
  최고가 아니어도 충분히 좋고, 전환 비용이 높으면 시장을 지배할 수 있음
  초기에는 손해를 감수하더라도 특정 도메인(예: 코딩) 중심으로 시장을 확보하는 게 합리적일 수 있음
- API 요금제 기준으로는 약간의 이익이 있을 것 같음
  하지만 사용량이 20배 늘어나는 플랜은 지속 가능성이 의문임
  지금의 “vibe-coding 르네상스”가 이런 비용 구조에서 유지될 수 있을지 모르겠음
- Dario가 팟캐스트에서 말했듯, 모델은 수명 전체 기준으로는 수익성이 있음
  연 단위 손익으로 보는 건 AI 기업의 특성상 부적절함
- 진짜 흥미로운 건 “$200/월 플랜이 보조되고 있는가”임
  이게 현재 에이전트형 코딩 붐을 떠받치고 있음
  아마 약간은 보조 중이지만, 장기적으로는 2배 정도 인상될 가능성이 있음
1M 컨텍스트 윈도우가 생긴 건 엄청난 업그레이드라 매우 만족스러움
Anthropic의 전략이 아직도 잘 이해되지 않음
대중 시장을 노리는 마케팅을 하지만 실제 강점은 코딩 중심임
일반 연구나 정보 탐색에서는 ChatGPT나 Gemini가 훨씬 깊이 있고 표현도 좋음
“헌법”이나 “인권” 같은 인간성 마케팅을 하지만 오히려 가장 거래적으로 느껴짐
그래도 코딩용으로는 훌륭해서 계속 유료로 쓰고 있음
- 코드 외의 일반 대화에서도 Claude는 꽤 잘 작동함
  비기술 친구들도 ChatGPT에서 Claude로 옮겼고 다시 돌아간 경우를 못 봤음
  8개월 전만 해도 API에서만 쓸 만했는데 지금은 훨씬 나아짐
- 영어 외 언어에서는 품질이 심각하게 떨어짐
  나는 체코어 사용자인데 Claude는 단어를 지어내고, Grok은 러시아어로 답할 때도 있음
  코딩엔 좋지만 일반 대화용으로는 불가능함
- 모델이 일상적이지 않음
  에이전트형 작업이나 도구 사용에는 좋지만, 일상 질문에는 쓰지 않음
Opus 4.6이 설치에 안 보였는데, 다시 설치 명령을 실행하니 나타났음 (v2.1.32)
설치 가이드
- 이미 사용 중임
AI/LLM의 운영 비용이 실제로 줄고 있는지 궁금함
“에이전트 팀” 개념은 멋지지만, 여러 모델을 동시에 돌리면 비용이 커서 현실적으로 어렵다고 느낌
- 토큰당 비용은 꾸준히 하락 중임
  OpenAI는 엔지니어링 최적화로 o3 가격을 1/5로 낮췄고, 다른 업체들도 비슷한 절감 효과를 얻었음
  예전의 “모든 요청에서 손해 본다”는 말은 사실과 다름
- 그 루머는 반복되지만 실제로는 추론 단가가 원가보다 낮을 리 없다고 생각함
  전체 회사는 R&D와 훈련비로 적자지만, API 사용 자체는 이익임
  DeepSeek 같은 오픈 모델도 훨씬 낮은 가격으로도 수익을 내고 있음
- 실제 데이터로 보면 손해일 리 없음
  예를 들어 Claude 4(약 400B 파라미터)는 DeepSeek V3(680B)보다 훨씬 비쌈
  Claude 입력 $1/M, 출력 $5/M vs DeepSeek 입력 $0.4/M, 출력 $1.2/M
  이 차이는 Anthropic이 훈련비를 회수해야 하기 때문임
  DeepSeek 가격, Claude 가격
- 실제 손익 계산은 어렵지만, 감가상각과 모델 수명 같은 불확실성이 큼
  단순히 추론 수익만 보면 이익이지만, 전체 비용을 보면 그렇지 않을 수도 있음
- AI 에이전트 활용도는 아직 낮음
  코딩 보조로 쓰지만 자주 경로 수정이 필요함
  그래도 숙련된 인력을 고용하는 것보단 훨씬 저렴함
“We build Claude with Claude”라는 문구가 꽤 흥미로움
- Claude Code에는 6000개 이상의 오픈 이슈가 있음
  60일 비활성 시 자동 정리되는데도 계속 늘어나는 중임
- 매우 성공적인 제품이라 생각함
  그 문구가 편견을 드러내는 것 외엔 별 의미 없음
- dogfooding의 중요성을 보여주는 사례라고 봄
  스스로 써보는 게 최고의 품질 개선 방법임
- CC의 샌드박싱은 거의 농담 수준임
  지금처럼 래퍼가 폭증하는 이유이며, 언젠가 보안 사고가 날 것 같음
- 그래서 Claude Code가 React 앱이 터미널로 출력되는 구조인 게 설명됨
Opus 4.6을 체험해보라고 $50 크레딧을 추가로 제공 중임
사용량 페이지에서 바로 받을 수 있음
아마 토큰 사용량 증가를 예상하거나 모델 홍보 목적일 것 같음

답변달기