# Claude Opus 4.6 공개

> Clean Markdown view of GeekNews topic #26433. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26433](https://news.hada.io/topic?id=26433)
- GeekNews Markdown: [https://news.hada.io/topic/26433.md](https://news.hada.io/topic/26433.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-06T06:22:37+09:00
- Updated: 2026-02-06T06:22:37+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-opus-4-6)
- Points: 20
- Comments: 9

## Summary

**Claude Opus 4.6**은 장기 컨텍스트 처리와 자율적 에이전트 운영 능력을 대폭 확장한 Anthropic의 최신 모델입니다. 1M 토큰 컨텍스트(베타)와 **Adaptive thinking**, **Effort 조절** 기능을 통해 복잡한 코드베이스나 장기 프로젝트에서도 안정적으로 작동합니다. 주요 벤치마크에서 GPT-5.2를 능가하는 성능을 보였으며, 오류·남용·과잉 거부율이 낮은 안전성으로 실무 환경에서의 신뢰도를 높였습니다.

## Topic Body

- 향상된 **코딩 능력과 장기적 작업 지속성**을 갖춘 Anthropic의 최신 AI 모델로, 1M 토큰 컨텍스트 윈도우를 베타로 지원  
- 주요 벤치마크에서 업계 최고 수준의 점수를 기록하며, GPT-5.2보다 약 144 Elo 포인트 우위  
- **코드 리뷰·디버깅**, **대규모 코드베이스 처리**, **재무 분석·문서 작성** 등 실무 중심 작업에서 성능이 강화됨  
- **Adaptive thinking**, **context compaction**, **effort 조절** 등 개발자 제어 기능이 추가되어 장기 실행형 에이전트 운영이 용이  
- 안전성 평가에서도 **오류·남용·과잉 거부율이 낮은** 결과를 보여, 고성능과 안전성을 동시에 달성한 모델로 평가  
  
---  
  
### Claude Opus 4.6 주요 개선점  
- Opus 4.6은 이전 버전 대비 **계획 능력, 에이전트 지속성, 코드 품질 관리**가 향상된 모델  
  - 대규모 코드베이스에서 더 안정적으로 작동하며, 자체 오류 탐지 및 수정 능력 강화  
  - 1M 토큰 컨텍스트 윈도우(베타)로 장문·복합 작업 처리 가능  
- **일상 업무 활용성**도 확대되어, 재무 분석·리서치·문서·스프레드시트·프레젠테이션 생성 등 다양한 작업 수행  
- **Cowork 환경**에서 멀티태스킹 자율 수행이 가능, 사용자를 대신해 복합 업무 처리  
  
### 벤치마크 및 성능 평가  
- **Terminal-Bench 2.0**에서 최고 점수, **Humanity’s Last Exam**에서도 모든 프런티어 모델 중 선두  
- **GDPval-AA** 평가에서 GPT-5.2보다 약 144 Elo 포인트, Opus 4.5보다 190 포인트 높은 성능  
- **BrowseComp** 테스트에서도 최고 성능을 기록, 온라인 정보 탐색 능력 강화  
- **MRCR v2 (1M variant)** 에서 76% 점수로, Sonnet 4.5의 18.5% 대비 큰 향상  
- 장문 컨텍스트 유지력과 정보 추적 능력이 개선되어 **context rot** 현상 완화  
  
### 초기 사용 경험 및 파트너 피드백  
- 내부 엔지니어링 테스트에서 **복잡한 문제 해결력과 판단력**이 향상됨  
  - 어려운 문제에서는 깊이 있는 사고를 반복하며 더 나은 결과 도출  
  - 단순 작업에서는 과도한 사고로 지연될 수 있어 `/effort` 파라미터로 조정 가능  
- 초기 파트너들은 Opus 4.6이 **자율적 실행 능력**, **복잡한 요청 처리**, **팀 협업 지원**에서 탁월하다고 평가  
  - 대규모 코드베이스 탐색, 병렬 하위 작업 수행, 블로커 식별 등에서 정밀한 성능  
  - 법률·금융·기술 콘텐츠 분석에서 높은 정확도(예: BigLaw Bench 90.2%)  
  - 실제 테스트에서 40건 중 38건의 사이버보안 조사에서 Opus 4.5보다 우수한 결과  
  - 수백만 라인 코드 마이그레이션을 절반 시간에 완료한 사례 보고  
  
### 안전성 및 보안 강화  
- **자동화된 행동 감사**에서 기만·아첨·오용 협력 등 비정렬 행동 비율이 낮음  
- **과잉 거부율(over-refusal)** 이 가장 낮은 Claude 모델  
- 사용자 복지, 위험 요청 거부, 은밀한 유해 행동 탐지 등 새로운 안전성 평가 실시  
- **해석가능성 연구**를 통해 모델 내부 작동 원인 분석 및 잠재적 문제 탐지  
- **사이버보안 능력 강화**에 따라 6종의 신규 보안 프로브 도입, 악용 탐지 강화  
- **방어적 활용**으로 오픈소스 취약점 탐지·패치 지원, 향후 실시간 남용 차단 계획  
  
### 제품 및 API 업데이트  
- **Claude Developer Platform**에서 다음 기능 추가  
  - **Adaptive thinking**: 모델이 상황에 따라 심층 사고 여부를 자동 결정  
  - **Effort 레벨**: low, medium, high(기본), max 네 단계 제공  
  - **Context compaction (베타)** : 대화가 길어질 때 오래된 컨텍스트를 요약·대체  
  - **1M 토큰 컨텍스트 (베타)** 및 **128k 출력 토큰** 지원  
  - **US-only inference** 옵션 제공 (1.1배 요금)  
- **Claude Code**에 **agent teams** 기능 추가, 여러 에이전트가 병렬 협업 가능  
- **Claude in Excel**은 비정형 데이터 구조화·다단계 변경 처리 능력 향상  
- **Claude in PowerPoint**(리서치 프리뷰)는 슬라이드 템플릿·폰트·레이아웃을 인식해 브랜드 일관성 유지  
  
### 접근 및 가격  
- Opus 4.6은 **claude.ai**, **API**, 주요 클라우드 플랫폼에서 즉시 사용 가능  
- API 모델명은 `claude-opus-4-6`, 가격은 **$5/$25 per million tokens**으로 이전과 동일  
- 200k 토큰 초과 프롬프트에는 프리미엄 요금($10/$37.50 per million tokens) 적용  
  
### 결론  
- Claude Opus 4.6은 **장기 컨텍스트 처리, 자율적 에이전트 작업, 고급 추론 능력**에서 큰 도약을 이룸  
- **성능·안전성·개발자 제어성**을 모두 강화한 모델로, 실무형 AI 도구의 새로운 기준 제시

## Comments


### Comment 50762

- Author: heim2
- Created: 2026-02-06T17:56:22+09:00
- Points: 2

맥스 쓰는데 뭔가 토큰을 많이 쓸수록 뿌듯... 안쓰면 아까움...

### Comment 50708

- Author: duse0001
- Created: 2026-02-06T10:03:29+09:00
- Points: 1

인터넷에 돌던 가격 인하 내용은 적용 안됐네요 ㅜ

### Comment 50752

- Author: wegaia
- Created: 2026-02-06T15:55:00+09:00
- Points: 1
- Parent comment: 50708
- Depth: 1

구독자들 리밋 소진이 광속으로 다다른다는 글들이 레딧에 쏟아지는 중이네요.   
하던일도 있고해서 그냥 계속 4.5 쓰고 있는 중

### Comment 50710

- Author: xguru
- Created: 2026-02-06T10:21:57+09:00
- Points: 1
- Parent comment: 50708
- Depth: 1

[한정 기간 동안 50달러 상당의 추가 사용 크레딧](https://news.hada.io/topic?id=26438)은 준다고 하네요. ㅎㅎ

### Comment 50727

- Author: duse0001
- Created: 2026-02-06T12:25:55+09:00
- Points: 1
- Parent comment: 50710
- Depth: 2

Api 가격이 내려가면 자연스레 주간 한도가 올라갈거라 기대했는데 아쉽습니다 ㅠ 200달러 플랜 주간한도가 여유롭지않아서요..

### Comment 50718

- Author: princox
- Created: 2026-02-06T11:16:19+09:00
- Points: 1
- Parent comment: 50710
- Depth: 2

흑 너무 짜네요.. 안트로픽은 토큰을 뿌려줘라..!!

### Comment 50706

- Author: hmmhmmhm
- Created: 2026-02-06T09:55:10+09:00
- Points: 1

오오 드디어~~~~

### Comment 50698

- Author: princox
- Created: 2026-02-06T09:37:58+09:00
- Points: 1

Sonnet 5를 기대했는데, Opus 4.6이었네요 ㅎㅎ

### Comment 50688

- Author: neo
- Created: 2026-02-06T06:22:37+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46902223) 
- 자전거 프레임은 좀 **삐뚤지만**, 펠리컨 자체는 훌륭함  
  그림은 [여기에서 볼 수 있음](https://gist.github.com/simonw/a6806ce41b4c721e240a4548ecdbe216?permalink_comment_id=5972110#gistcomment-5972110)
  - 펠리컨 그림에 **오버피팅**된 게 아닐까 궁금함
  - “generate” 같은 단어 선택이 모델의 결과에 영향을 주는지 궁금함  
    펠리컨의 두 다리가 같은 쪽에 있는 걸 바로 눈치챘는데, 실제로는 그렇지 않다는 걸 **Wikipedia**에서 확인했음  
    프롬프트를 반복적으로 수정해 더 현실적인 결과를 얻을 수 있는지도 실험해봤는지 궁금함
  - 사실 대부분의 사람도 자전거를 제대로 못 그림  
    프레임 구조나 **기하학적 비율**을 자주 틀림
  - 애니메이션 버전도 있음  
    [링크](https://claude.ai/public/artifacts/3db12520-eaea-4769-82be-7e4cda778aba)
  - 이런 출력물들이 결국 모델 학습에 다시 들어가 **벤치마크를 통과**하게 되는 시점이 오지 않을까 생각함

- **GPT‑5.3 Codex**가 [Terminal Bench](https://openai.com/index/introducing-gpt-5-3-codex/)에서 77.3%로 압도적인 성능을 보였음  
  단 35분 만에 기록이 깨졌다는 게 놀라움
  - 모델 성능이 시간대나 서버 부하에 따라 달라지는데, 이런 **벤치마크 신뢰성**을 믿어도 되는지 의문임  
    혹시 출시 직후엔 최고 성능으로 돌리고 이후엔 비용 절감을 위해 낮추는 건 아닌지 궁금함
  - 광범위한 벤치마크 리포트가 없어서 **benchmaxxing**으로 돌아간 건 아닌지 궁금함  
    직접 써본 후 의견을 나눠보고 싶음
  - 점수가 10포인트나 오른 건 큰 변화인데, 실제 사용감에서도 **질적 차이**가 느껴질지 궁금함  
    혹시 이제 벤치마크 포화 상태에 도달한 건 아닐까 생각함
  - **Claude swe-bench**는 80.8, Codex는 56.8이라 여전히 Claude 4.6이 전반적으로 우세해 보임

- **Claude Code**의 릴리스 노트 요약임  
  Opus 4.6 추가, **multi-agent 협업 기능**, 자동 메모리 기록, 부분 대화 요약, VSCode 개선 등 다양한 업데이트가 포함됨
  - “Claude가 작업 중 자동으로 기억을 기록하고 불러온다”는 부분이 흥미로움  
    [메모리 기능 문서](https://code.claude.com/docs/en/memory)를 보면 **Google Antigravity의 Knowledge 아티팩트**와 비슷한 개념 같음

- 논의에서 두 가지가 혼동되고 있다고 생각함  
  첫째는 **토큰 단가 기반 수익성**, 둘째는 **모델 생애주기 경제학**임  
  추론 단가는 이익일 수 있지만, 전체 모델 프로그램은 여전히 적자일 수 있음  
  진짜 질문은 “모델이 얼마나 오래 경쟁력을 유지해야 경제적으로 맞아떨어질까”임
  - “**worse is better**”를 기억해야 함  
    최고가 아니어도 충분히 좋고, 전환 비용이 높으면 시장을 지배할 수 있음  
    초기에는 손해를 감수하더라도 특정 **도메인(예: 코딩)** 중심으로 시장을 확보하는 게 합리적일 수 있음
  - API 요금제 기준으로는 약간의 **이익**이 있을 것 같음  
    하지만 사용량이 20배 늘어나는 플랜은 지속 가능성이 의문임  
    지금의 “**vibe-coding 르네상스**”가 이런 비용 구조에서 유지될 수 있을지 모르겠음
  - Dario가 팟캐스트에서 말했듯, 모델은 **수명 전체 기준으로는 수익성**이 있음  
    연 단위 손익으로 보는 건 AI 기업의 특성상 부적절함
  - 진짜 흥미로운 건 “**$200/월 플랜**이 보조되고 있는가”임  
    이게 현재 에이전트형 코딩 붐을 떠받치고 있음  
    아마 약간은 보조 중이지만, 장기적으로는 2배 정도 인상될 가능성이 있음

- **1M 컨텍스트 윈도우**가 생긴 건 엄청난 업그레이드라 매우 만족스러움

- Anthropic의 전략이 아직도 잘 이해되지 않음  
  대중 시장을 노리는 마케팅을 하지만 실제 강점은 **코딩 중심**임  
  일반 연구나 정보 탐색에서는 ChatGPT나 Gemini가 훨씬 깊이 있고 표현도 좋음  
  “헌법”이나 “인권” 같은 인간성 마케팅을 하지만 오히려 가장 **거래적**으로 느껴짐  
  그래도 코딩용으로는 훌륭해서 계속 유료로 쓰고 있음
  - 코드 외의 일반 대화에서도 Claude는 꽤 잘 작동함  
    비기술 친구들도 ChatGPT에서 Claude로 옮겼고 다시 돌아간 경우를 못 봤음  
    8개월 전만 해도 API에서만 쓸 만했는데 지금은 훨씬 나아짐
  - 영어 외 언어에서는 **품질이 심각하게 떨어짐**  
    나는 체코어 사용자인데 Claude는 단어를 지어내고, Grok은 러시아어로 답할 때도 있음  
    코딩엔 좋지만 일반 대화용으로는 불가능함
  - 모델이 일상적이지 않음  
    **에이전트형 작업**이나 도구 사용에는 좋지만, 일상 질문에는 쓰지 않음

- **Opus 4.6**이 설치에 안 보였는데, 다시 설치 명령을 실행하니 나타났음 (v2.1.32)  
  [설치 가이드](https://code.claude.com/docs/en/overview#get-started-in-30-seconds)
  - 이미 사용 중임

- AI/LLM의 **운영 비용**이 실제로 줄고 있는지 궁금함  
  “에이전트 팀” 개념은 멋지지만, 여러 모델을 동시에 돌리면 비용이 커서 현실적으로 어렵다고 느낌
  - 토큰당 비용은 꾸준히 하락 중임  
    OpenAI는 엔지니어링 최적화로 o3 가격을 1/5로 낮췄고, 다른 업체들도 비슷한 절감 효과를 얻었음  
    예전의 “모든 요청에서 손해 본다”는 말은 사실과 다름
  - 그 루머는 반복되지만 실제로는 **추론 단가**가 원가보다 낮을 리 없다고 생각함  
    전체 회사는 R&D와 훈련비로 적자지만, **API 사용 자체는 이익**임  
    DeepSeek 같은 오픈 모델도 훨씬 낮은 가격으로도 수익을 내고 있음
  - 실제 데이터로 보면 손해일 리 없음  
    예를 들어 Claude 4(약 400B 파라미터)는 DeepSeek V3(680B)보다 훨씬 비쌈  
    Claude 입력 $1/M, 출력 $5/M vs DeepSeek 입력 $0.4/M, 출력 $1.2/M  
    이 차이는 Anthropic이 **훈련비를 회수**해야 하기 때문임  
    [DeepSeek 가격](https://openrouter.ai/deepseek/deepseek-v3.2-speciale), [Claude 가격](https://claude.com/pricing#api)
  - 실제 손익 계산은 어렵지만, **감가상각**과 모델 수명 같은 불확실성이 큼  
    단순히 추론 수익만 보면 이익이지만, 전체 비용을 보면 그렇지 않을 수도 있음
  - AI 에이전트 활용도는 아직 낮음  
    코딩 보조로 쓰지만 자주 **경로 수정**이 필요함  
    그래도 숙련된 인력을 고용하는 것보단 훨씬 저렴함

- “**We build Claude with Claude**”라는 문구가 꽤 흥미로움  
  - Claude Code에는 6000개 이상의 **오픈 이슈**가 있음  
    60일 비활성 시 자동 정리되는데도 계속 늘어나는 중임
  - 매우 성공적인 제품이라 생각함  
    그 문구가 편견을 드러내는 것 외엔 별 의미 없음
  - **dogfooding**의 중요성을 보여주는 사례라고 봄  
    스스로 써보는 게 최고의 품질 개선 방법임
  - CC의 **샌드박싱**은 거의 농담 수준임  
    지금처럼 래퍼가 폭증하는 이유이며, 언젠가 보안 사고가 날 것 같음
  - 그래서 Claude Code가 **React 앱이 터미널로 출력**되는 구조인 게 설명됨

- Opus 4.6을 체험해보라고 **$50 크레딧**을 추가로 제공 중임  
  [사용량 페이지](https://claude.ai/settings/usage)에서 바로 받을 수 있음  
  아마 **토큰 사용량 증가**를 예상하거나 모델 홍보 목적일 것 같음