# Claude Sonnet 4.6 공개

> Clean Markdown view of GeekNews topic #26766. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26766](https://news.hada.io/topic?id=26766)
- GeekNews Markdown: [https://news.hada.io/topic/26766.md](https://news.hada.io/topic/26766.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-18T09:46:07+09:00
- Updated: 2026-02-18T09:46:07+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-sonnet-4-6)
- Points: 9
- Comments: 1

## Summary

**Claude Sonnet 4.6**은 Anthropic이 공개한 최신 중간급 모델로, **Opus급 지능을 더 낮은 비용**으로 제공하며 코드 작성·지식 작업·디자인 등 전 영역의 품질을 끌어올렸습니다. **1M 토큰 컨텍스트 윈도우**를 지원해 대규모 코드베이스나 긴 문서를 한 번에 처리할 수 있고, OSWorld 벤치마크에서는 실제 소프트웨어 조작 능력과 **프롬프트 인젝션 방어력**이 크게 향상되었습니다. 개발자는 이제 고가 모델 없이도 프런티어급 추론과 코드 품질을 API와 모든 요금제에서 바로 활용할 수 있습니다.

## Topic Body

- 코드 작성, 컴퓨터 사용, 장기 추론, 에이전트 계획, 지식 작업, 디자인 등 전 영역에서 성능이 향상된 **Anthropic의 최신 Sonnet 모델**  
- **1M 토큰 컨텍스트 윈도우** 를 지원하며, Sonnet 4.5 대비 일관성·명령 수행·코드 품질이 크게 개선됨  
- **Opus 4.5 수준의 지능**을 더 낮은 비용으로 제공하며, 실제 업무·문서 이해·프론트엔드 설계 등에서 **인간 수준의 결과**를 보임  
- **OSWorld 벤치마크**에서 컴퓨터 사용 능력이 지속적으로 향상되었고, **프롬프트 인젝션 방어력**도 강화됨  
- 개발자와 기업이 **고비용 모델 없이도 프런티어급 추론과 코드 품질**을 활용할 수 있게 된 점이 핵심  
  
---  
  
### Claude Sonnet 4.6 개요  
- Sonnet 4.6은 Anthropic의 **가장 강력한 Sonnet 시리즈 모델**로, 코딩·컴퓨터 사용·장기 추론·지식 작업·디자인 등 전반적 능력 업그레이드  
  - **1M 토큰 컨텍스트 윈도우(베타)** 를 지원해 대규모 코드베이스나 긴 문서를 한 번에 처리 가능  
- Free 및 Pro 요금제 사용자에게 **기본 모델로 적용**, 가격은 Sonnet 4.5와 동일하게 **100만 토큰당 $3/$15** 유지  
- 초기 사용자들은 Sonnet 4.6을 **Sonnet 4.5보다 압도적으로 선호**, 일부는 **Opus 4.5보다도 선호**  
- **안전성 평가 결과**, 이전 모델보다 안전하거나 동등 수준으로, “따뜻하고 정직하며 친사회적 성격”을 보였다고 평가됨  
  
### 컴퓨터 사용 능력  
- Sonnet 4.6은 **사람처럼 컴퓨터를 조작**할 수 있는 모델로 발전  
  - Chrome, LibreOffice, VS Code 등 실제 소프트웨어를 가상 환경에서 조작하며 **OSWorld 벤치마크**로 평가됨  
- 16개월간 지속적인 성능 향상으로, **복잡한 스프레드시트 탐색**이나 **다단계 웹폼 작성** 등에서 인간 수준의 능력 확인  
- 여전히 최고 숙련 인간보다는 부족하지만, **작업 효율 향상 속도**가 매우 빠름  
- **프롬프트 인젝션 공격**에 대한 방어력이 Sonnet 4.5보다 크게 개선되어, **Opus 4.6과 유사한 수준**의 안전성 확보  
  
### 성능 평가 및 벤치마크  
- Sonnet 4.6은 **Opus급 지능을 더 낮은 비용으로 제공**, 다양한 벤치마크에서 전반적 향상  
  - **Claude Code 테스트**에서 사용자 70%가 Sonnet 4.6을 선호, 코드 수정 시 문맥 이해와 중복 최소화 능력 향상  
  - **Opus 4.5 대비 59% 선호**, 과도한 설계나 게으름 현상 감소, 명령 수행 정확도 향상  
- **Vending-Bench Arena**에서 장기 경영 시뮬레이션 수행 중 **초기 투자 후 후반 수익 집중 전략**으로 경쟁 모델을 앞섬  
- **OfficeQA**에서 Opus 4.6과 동등한 문서 이해력, **Financial Services Benchmark**에서 답변 일치율 상승  
- **보험 벤치마크 94% 정확도**, **Box 테스트에서 15% 향상된 심층 추론 성능** 기록  
- **Rakuten AI 테스트**에서 최고 수준의 iOS 코드 생성, 현대적 툴링 활용 및 아키텍처 품질 개선  
  
### 제품 및 플랫폼 업데이트  
- **Claude Developer Platform**에서 **adaptive thinking**, **extended thinking**, **context compaction(베타)** 지원  
  - 오래된 문맥을 자동 요약해 **효과적 컨텍스트 길이 증가**  
- API 도구 업데이트:  
  - **web search**와 **fetch**가 자동으로 코드 작성·실행해 검색 결과를 필터링  
  - **code execution**, **memory**, **programmatic tool calling**, **tool search** 등 기능이 일반 제공  
- **Claude in Excel** 애드인에서 **MCP 커넥터** 지원, S&P Global·LSEG·PitchBook 등 외부 데이터와 연동 가능  
- Sonnet 4.6은 **extended thinking 없이도 높은 성능 유지**, Sonnet 4.5 사용자에게 **마이그레이션 권장**  
- **Opus 4.6**은 여전히 가장 깊은 추론이 필요한 작업(코드 리팩터링, 다중 에이전트 조정 등)에 적합  
  
### 사용 가능 경로  
- Sonnet 4.6은 **모든 Claude 요금제**, **Claude Cowork**, **Claude Code**, **API**, 주요 클라우드 플랫폼에서 이용 가능  
- **무료 요금제도 Sonnet 4.6으로 업그레이드**, 파일 생성·커넥터·스킬·컴팩션 기능 포함  
- 개발자는 `claude-sonnet-4-6` 모델명을 통해 **Claude API에서 즉시 사용 가능**  
  
### 주요 수치 및 평가 지표 (각주 요약)  
- **OSWorld**: 실제 소프트웨어 기반 컴퓨터 작업 평가, Sonnet 4.6은 ‘thinking off’ 상태에서 측정  
- **SWE-bench Verified**: 10회 평균 80.2% 점수  
- **ARC-AGI-2**: 최대 노력 모드에서 60.4% 달성  
- **MMMU-Pro**: 평가 방식 개선 후 점수 조정  
- **Humanity’s Last Exam**, **BrowseComp** 등 다양한 실험에서 **도구 사용·웹 검색·맥락 압축 기능 활성화 상태**로 테스트 수행

## Comments



### Comment 51308

- Author: neo
- Created: 2026-02-18T09:46:07+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47050488) 
- 컴퓨터 사용에 초점을 맞춘 점이 인상적임. 그만큼 **가치가 크다고 판단**한 듯함. 하지만 안전성 부분은 여전히 의문임. 그들의 자체 평가에 따르면, 자동 공격 시스템이 **8% 확률로 단 한 번의 시도로 침입에 성공**했고, 무제한 시도 시에는 50%까지 성공했다고 함. 이런 수치는 받아들이기 어려움. 혹시 내가 뭔가 잘못 이해한 게 아니라면, 이건 실사용 불가능한 수준임  
  [안전성 평가 PDF](https://www-cdn.anthropic.com/78073f739564e986ff3e28522761a7a0b4484f84.pdf)
  - 이 기술의 목표는 사실상 **컴퓨터 I/O 관련 노동의 독점**임. SWE뿐 아니라 대부분의 사무직이 대상이 됨. 한 명이 세 명의 일을 하게 만들어 인력 감축을 유도함. 기업 입장에서는 같은 돈을 벌면서 인건비를 1/3로 줄일 수 있으니 마다할 이유가 없음. 하지만 이런 구조에서는 누구나 LLM으로 비즈니스를 만들 수 있고, 결국 **경쟁이 과잉되어 수익률이 0에 수렴**함. 모두가 같은 모델을 쓰면 차별화가 사라짐. 오히려 강력한 오픈소스 모델조차 **사회적 이동성**을 약화시킬 수 있음
  - 8% 수치는 오히려 놀라울 정도로 양호하다고 생각함. 중요한 건 모델 자체보다 **운영 환경의 통제 장치**임. 실제 서비스에서는 모니터링과 킬 스위치가 필수임. 모델이 “충분히 안전”한 건 필요조건일 뿐, 충분조건은 아님
  - 이건 아무도 말하지 않으려는 **핵심 문제**임. 안전성이 해결되지 않으면 대규모 노동 대체는 불가능함. 요약이나 보조 수준의 사용은 괜찮지만, **자율적 의사결정**을 맡기면 법적 리스크가 폭발함. 결국 AI 기업들은 이 문제를 해결하지 못하면 자금이 바닥날 것임. 지금 흐름으로는 AI가 검색이나 맞춤법 검사기처럼 유용한 도구로 남겠지만, 대규모 일자리 대체는 실현되지 않을 것 같음
  - 실제로는 단순 반복적인 **내부 앱 자동화** 같은 곳에서 유용할 수 있음. 예를 들어 매일 같은 웹앱에 로그인해 캘린더를 읽고 버튼을 누르는 일 등. 이런 환경에서는 공격자가 없으므로 안전성 문제가 거의 사라짐
  - 8%와 50% 수치는 우려스럽지만, 이는 **‘컴퓨터 사용 환경’** 에서의 결과임. 코딩 환경에서는 확장 사고를 켠 상태에서 0.0%였다고 함. 즉, 아직 실험적 영역임  

- 개인 시집 약 900편을 Sonnet 4.6에 넣어 테스트했는데, **Opus 4.6과 비교하면 큰 차이**가 있음. Opus 4.6은 놀라운 분석을 보여줬지만 Sonnet 4.6은 여전히 **환각과 오류**가 잦음. 코딩 테스트에서도 비슷한 인상임. Opus에 비하면 한참 부족함
  - 오랜만에 시 테스트를 보니 반갑다는 반응. 이런 분석들을 한데 모아 정리해주면 좋겠다는 의견임
  - Opus 4.6은 코드 작성에서 **생산성이 3배 이상 향상**됨. 프로젝트 전체를 책임감 있게 다루며, 사용자의 의도를 잘 파악함. 이전 버전처럼 몰래 지름길을 택하거나 결과를 망치는 일이 없음  

- Sonnet 4.6이 여전히 **‘세차장 문제’** 를 틀림. [원문 질문](https://news.ycombinator.com/item?id=47031580)을 그대로 넣었는데 “걸어가라”고 답함. 여러 변형을 시도해도 비슷한 실패를 보였음
  - 내 테스트에서는 반대로 “운전해라”라고 즉답함. “세차하러 가는 거니까 차가 있어야 한다”는 식으로 단호했음. 아마 서로 다른 버전이 제공된 듯함
  - 이런 답변의 양극단이 흥미로움. **자신감 있는 오류**, 전형적인 환각 패턴임
  - 어떤 답변은 “차를 밀고 가라”고 제안함. [공유 링크](https://claude.ai/share/32de37c4-46f2-4763-a2e1-8de7ecbcf0b4)
  - 또 다른 답변은 “걸어가라, 30초 거리다”라며 환경과 건강을 이유로 제시함. 확장 사고는 꺼둔 상태였음
  - 이 질문은 앞으로 **벤치마크 테스트**로 자주 쓰일 듯함  

- “경쟁은 소비자에게 좋다”는 말을 실감함. 시장 경쟁이 치열할수록 결과물이 좋아짐
  - 하지만 지금의 AI 경쟁은 **‘무방비한 무기 경쟁’** 처럼 보임. 승자독식 구조라 모두가 손해를 보며 투자함. 과잉 투자로 인해 사회 전체적으로는 비효율적일 수 있음
  - GPT-2가 2019년에 “위험해서 공개 불가”였던 걸 생각하면, ChatGPT 출시가 이 경쟁을 촉발한 계기였음
  - 모든 시장이 완전경쟁처럼 작동한다고 믿는 건 위험함. 실제로는 **독점·정보 비대칭**이 많음
  - 지금 AI 시장은 인류 역사상 가장 **치열한 경쟁 구도** 중 하나임. 모델을 일부러 나쁘게 만든다는 음모론은 설득력이 없음
  - 결국 두 기업만 남으면 **수익 회수 단계**가 올 것임  

- “헬리콥터 세차장” 테스트가 최고였음. Sonnet 4.6은 “걸어가라”고 답했는데, **미국인들의 짧은 거리 운전 습관을 풍자한 듯한 답변**이라 재밌었음
  - 이 테스트가 가장 마음에 든다는 반응. 모델이 **Reddit식 유머 데이터**로 훈련된 게 느껴진다고 함  

- Sonnet 4.6이 Opus 4.5 수준의 성능이라는 점이 놀라움. 발전 속도가 1990년대 **컴퓨팅 성능 향상 속도**를 연상시킴
  - 진짜 흥미로운 건 **성능 상향보다 하한선 상승**임. Opus급 추론을 Sonnet 가격과 지연으로 얻을 수 있다는 건 혁신적임. 6~9개월마다 같은 지능 단위를 절반의 연산비로 얻는 셈임
  - “1990년대 속도”라는 말에 “RAM 가격도 그 시절 수준”이라는 농담이 이어짐
  - simonw 대신 “자전거 타는 펠리컨 SVG”를 생성해 공유함. [이미지 링크](https://claude.ai/public/artifacts/67c13d9a-3d63-4598-88d0-5cb2d5b8f732)
  - Opus가 NYC 야경 사진을 잘못 묘사했다는 사례도 있음. Mistral은 더 정확했음. OpenAI는 URL 업로드를 막았고, Gemini는 VertexAI로 연결됨. Langchain 환경에서 테스트함
  - 시스템 카드에 따르면 Sonnet 4.6은 **오피스 작업과 재무 분석**에서 Opus 4.6보다 낫다고 명시되어 있음  

- Sonnet 4.5의 가격이 $3/$15 per million tokens인데, **이 가격을 감수할 사람이 많을까** 의문임. 오픈웨이트 모델들이 빠르게 따라잡고 있고 훨씬 저렴함  
  - 나는 **하이브리드 접근**을 시도 중임. GLM5로 대부분 처리하고, 마지막 단계에서 Opus/Sonnet으로 버그 검수함
  - 내 간단한 벤치마크에서는 Claude 4.6이 무료 Stepfun 3.5보다 못했음. [aibenchy.com](https://aibenchy.com) 참고. 여전히 **지시 따르기 정확도**가 낮음
  - 결국 “꽤 괜찮음”과 “SOTA”의 차이를 얼마나 가치 있게 보느냐의 문제임. 오류가 많은 모델을 쓰는 것도 결국 **비용**임
  - 어떤 사람들은 Claude처럼 **맥락 추론이 강한 모델**을 선호함. GLM은 세세한 명시가 필요함  

- Opus/Sonnet 4.6 지원을 [llm.datasette.io](https://llm.datasette.io/) 플러그인에 추가하느라 펠리컨 이미지를 늦게 만들었음. 결과물은 Opus 4.5 수준이며, **멋진 실크해트**를 쓴 버전임  
  [관련 블로그](https://simonwillison.net/2026/Feb/17/claude-sonnet-46/)
  - 다른 시도에서도 그 **실크해트 펠리컨**을 봤다는 댓글이 있음  

- 최근 며칠간 Sonnet 4.5로 테스트 중이었는데, 대화가 **이상할 정도로 흥미롭고 일관성** 있었음.  
  개인 설정으로 “객관적 사실과 비판적 분석 우선, 감정적 공감 금지”를 넣었더니 정말 잘 따름. ChatGPT도 비슷하게 반응함  

- 여러 사용자가 Opus 4.6이 4.5보다 **토큰을 5~10배 더 소비**한다고 보고함. [이슈 링크](https://github.com/anthropics/claude-code/issues/23706). 공식 답변은 아직 없음. 그래서 4.5를 계속 쓰려 함
  - 문제를 겪는 사람만 목소리가 큰 법임. 나는 4.6이 더 **빠르고 도구 호출이 적극적**이라 만족함. reasoning level을 medium으로 낮추면 과도한 사고를 줄일 수 있음
  - 내 경험상 Opus 4.5는 계획 고수형, 4.6은 **적응형 탐색형**임. 쉬운 문제에서는 비효율적이지만 어려운 문제에서는 훨씬 빠름
  - /models에서 reasoning level을 확인할 수 있음. high로 설정하면 토큰 사용이 급증함
  - 나도 며칠 만에 **월 예산을 다 써버림**
  - 내 실험에서는 4.6이 4.5보다 **15~45% 정도 토큰을 더 사용**했음. 하지만 이는 불완전한 프롬프트에서 추론을 요구하는 경우였음. 잘 작성된 작업에서는 큰 차이 없음. Sonnet 4.6의 reasoning token은 이전보다 **더 구조적이지만 점점 장황해지는 경향**이 있음. Google 모델과 유사한 스타일임
