Claude Sonnet 4.6 공개
(anthropic.com)- 코드 작성, 컴퓨터 사용, 장기 추론, 에이전트 계획, 지식 작업, 디자인 등 전 영역에서 성능이 향상된 Anthropic의 최신 Sonnet 모델
- 1M 토큰 컨텍스트 윈도우 를 지원하며, Sonnet 4.5 대비 일관성·명령 수행·코드 품질이 크게 개선됨
- Opus 4.5 수준의 지능을 더 낮은 비용으로 제공하며, 실제 업무·문서 이해·프론트엔드 설계 등에서 인간 수준의 결과를 보임
- OSWorld 벤치마크에서 컴퓨터 사용 능력이 지속적으로 향상되었고, 프롬프트 인젝션 방어력도 강화됨
- 개발자와 기업이 고비용 모델 없이도 프런티어급 추론과 코드 품질을 활용할 수 있게 된 점이 핵심
Claude Sonnet 4.6 개요
- Sonnet 4.6은 Anthropic의 가장 강력한 Sonnet 시리즈 모델로, 코딩·컴퓨터 사용·장기 추론·지식 작업·디자인 등 전반적 능력 업그레이드
- 1M 토큰 컨텍스트 윈도우(베타) 를 지원해 대규모 코드베이스나 긴 문서를 한 번에 처리 가능
- Free 및 Pro 요금제 사용자에게 기본 모델로 적용, 가격은 Sonnet 4.5와 동일하게 100만 토큰당 $3/$15 유지
- 초기 사용자들은 Sonnet 4.6을 Sonnet 4.5보다 압도적으로 선호, 일부는 Opus 4.5보다도 선호
- 안전성 평가 결과, 이전 모델보다 안전하거나 동등 수준으로, “따뜻하고 정직하며 친사회적 성격”을 보였다고 평가됨
컴퓨터 사용 능력
- Sonnet 4.6은 사람처럼 컴퓨터를 조작할 수 있는 모델로 발전
- Chrome, LibreOffice, VS Code 등 실제 소프트웨어를 가상 환경에서 조작하며 OSWorld 벤치마크로 평가됨
- 16개월간 지속적인 성능 향상으로, 복잡한 스프레드시트 탐색이나 다단계 웹폼 작성 등에서 인간 수준의 능력 확인
- 여전히 최고 숙련 인간보다는 부족하지만, 작업 효율 향상 속도가 매우 빠름
- 프롬프트 인젝션 공격에 대한 방어력이 Sonnet 4.5보다 크게 개선되어, Opus 4.6과 유사한 수준의 안전성 확보
성능 평가 및 벤치마크
- Sonnet 4.6은 Opus급 지능을 더 낮은 비용으로 제공, 다양한 벤치마크에서 전반적 향상
- Claude Code 테스트에서 사용자 70%가 Sonnet 4.6을 선호, 코드 수정 시 문맥 이해와 중복 최소화 능력 향상
- Opus 4.5 대비 59% 선호, 과도한 설계나 게으름 현상 감소, 명령 수행 정확도 향상
- Vending-Bench Arena에서 장기 경영 시뮬레이션 수행 중 초기 투자 후 후반 수익 집중 전략으로 경쟁 모델을 앞섬
- OfficeQA에서 Opus 4.6과 동등한 문서 이해력, Financial Services Benchmark에서 답변 일치율 상승
- 보험 벤치마크 94% 정확도, Box 테스트에서 15% 향상된 심층 추론 성능 기록
- Rakuten AI 테스트에서 최고 수준의 iOS 코드 생성, 현대적 툴링 활용 및 아키텍처 품질 개선
제품 및 플랫폼 업데이트
-
Claude Developer Platform에서 adaptive thinking, extended thinking, context compaction(베타) 지원
- 오래된 문맥을 자동 요약해 효과적 컨텍스트 길이 증가
- API 도구 업데이트:
- web search와 fetch가 자동으로 코드 작성·실행해 검색 결과를 필터링
- code execution, memory, programmatic tool calling, tool search 등 기능이 일반 제공
- Claude in Excel 애드인에서 MCP 커넥터 지원, S&P Global·LSEG·PitchBook 등 외부 데이터와 연동 가능
- Sonnet 4.6은 extended thinking 없이도 높은 성능 유지, Sonnet 4.5 사용자에게 마이그레이션 권장
- Opus 4.6은 여전히 가장 깊은 추론이 필요한 작업(코드 리팩터링, 다중 에이전트 조정 등)에 적합
사용 가능 경로
- Sonnet 4.6은 모든 Claude 요금제, Claude Cowork, Claude Code, API, 주요 클라우드 플랫폼에서 이용 가능
- 무료 요금제도 Sonnet 4.6으로 업그레이드, 파일 생성·커넥터·스킬·컴팩션 기능 포함
- 개발자는
claude-sonnet-4-6모델명을 통해 Claude API에서 즉시 사용 가능
주요 수치 및 평가 지표 (각주 요약)
- OSWorld: 실제 소프트웨어 기반 컴퓨터 작업 평가, Sonnet 4.6은 ‘thinking off’ 상태에서 측정
- SWE-bench Verified: 10회 평균 80.2% 점수
- ARC-AGI-2: 최대 노력 모드에서 60.4% 달성
- MMMU-Pro: 평가 방식 개선 후 점수 조정
- Humanity’s Last Exam, BrowseComp 등 다양한 실험에서 도구 사용·웹 검색·맥락 압축 기능 활성화 상태로 테스트 수행
Hacker News 의견들
-
컴퓨터 사용에 초점을 맞춘 점이 인상적임. 그만큼 가치가 크다고 판단한 듯함. 하지만 안전성 부분은 여전히 의문임. 그들의 자체 평가에 따르면, 자동 공격 시스템이 8% 확률로 단 한 번의 시도로 침입에 성공했고, 무제한 시도 시에는 50%까지 성공했다고 함. 이런 수치는 받아들이기 어려움. 혹시 내가 뭔가 잘못 이해한 게 아니라면, 이건 실사용 불가능한 수준임
안전성 평가 PDF- 이 기술의 목표는 사실상 컴퓨터 I/O 관련 노동의 독점임. SWE뿐 아니라 대부분의 사무직이 대상이 됨. 한 명이 세 명의 일을 하게 만들어 인력 감축을 유도함. 기업 입장에서는 같은 돈을 벌면서 인건비를 1/3로 줄일 수 있으니 마다할 이유가 없음. 하지만 이런 구조에서는 누구나 LLM으로 비즈니스를 만들 수 있고, 결국 경쟁이 과잉되어 수익률이 0에 수렴함. 모두가 같은 모델을 쓰면 차별화가 사라짐. 오히려 강력한 오픈소스 모델조차 사회적 이동성을 약화시킬 수 있음
- 8% 수치는 오히려 놀라울 정도로 양호하다고 생각함. 중요한 건 모델 자체보다 운영 환경의 통제 장치임. 실제 서비스에서는 모니터링과 킬 스위치가 필수임. 모델이 “충분히 안전”한 건 필요조건일 뿐, 충분조건은 아님
- 이건 아무도 말하지 않으려는 핵심 문제임. 안전성이 해결되지 않으면 대규모 노동 대체는 불가능함. 요약이나 보조 수준의 사용은 괜찮지만, 자율적 의사결정을 맡기면 법적 리스크가 폭발함. 결국 AI 기업들은 이 문제를 해결하지 못하면 자금이 바닥날 것임. 지금 흐름으로는 AI가 검색이나 맞춤법 검사기처럼 유용한 도구로 남겠지만, 대규모 일자리 대체는 실현되지 않을 것 같음
- 실제로는 단순 반복적인 내부 앱 자동화 같은 곳에서 유용할 수 있음. 예를 들어 매일 같은 웹앱에 로그인해 캘린더를 읽고 버튼을 누르는 일 등. 이런 환경에서는 공격자가 없으므로 안전성 문제가 거의 사라짐
- 8%와 50% 수치는 우려스럽지만, 이는 ‘컴퓨터 사용 환경’ 에서의 결과임. 코딩 환경에서는 확장 사고를 켠 상태에서 0.0%였다고 함. 즉, 아직 실험적 영역임
-
개인 시집 약 900편을 Sonnet 4.6에 넣어 테스트했는데, Opus 4.6과 비교하면 큰 차이가 있음. Opus 4.6은 놀라운 분석을 보여줬지만 Sonnet 4.6은 여전히 환각과 오류가 잦음. 코딩 테스트에서도 비슷한 인상임. Opus에 비하면 한참 부족함
- 오랜만에 시 테스트를 보니 반갑다는 반응. 이런 분석들을 한데 모아 정리해주면 좋겠다는 의견임
- Opus 4.6은 코드 작성에서 생산성이 3배 이상 향상됨. 프로젝트 전체를 책임감 있게 다루며, 사용자의 의도를 잘 파악함. 이전 버전처럼 몰래 지름길을 택하거나 결과를 망치는 일이 없음
-
Sonnet 4.6이 여전히 ‘세차장 문제’ 를 틀림. 원문 질문을 그대로 넣었는데 “걸어가라”고 답함. 여러 변형을 시도해도 비슷한 실패를 보였음
- 내 테스트에서는 반대로 “운전해라”라고 즉답함. “세차하러 가는 거니까 차가 있어야 한다”는 식으로 단호했음. 아마 서로 다른 버전이 제공된 듯함
- 이런 답변의 양극단이 흥미로움. 자신감 있는 오류, 전형적인 환각 패턴임
- 어떤 답변은 “차를 밀고 가라”고 제안함. 공유 링크
- 또 다른 답변은 “걸어가라, 30초 거리다”라며 환경과 건강을 이유로 제시함. 확장 사고는 꺼둔 상태였음
- 이 질문은 앞으로 벤치마크 테스트로 자주 쓰일 듯함
-
“경쟁은 소비자에게 좋다”는 말을 실감함. 시장 경쟁이 치열할수록 결과물이 좋아짐
- 하지만 지금의 AI 경쟁은 ‘무방비한 무기 경쟁’ 처럼 보임. 승자독식 구조라 모두가 손해를 보며 투자함. 과잉 투자로 인해 사회 전체적으로는 비효율적일 수 있음
- GPT-2가 2019년에 “위험해서 공개 불가”였던 걸 생각하면, ChatGPT 출시가 이 경쟁을 촉발한 계기였음
- 모든 시장이 완전경쟁처럼 작동한다고 믿는 건 위험함. 실제로는 독점·정보 비대칭이 많음
- 지금 AI 시장은 인류 역사상 가장 치열한 경쟁 구도 중 하나임. 모델을 일부러 나쁘게 만든다는 음모론은 설득력이 없음
- 결국 두 기업만 남으면 수익 회수 단계가 올 것임
-
“헬리콥터 세차장” 테스트가 최고였음. Sonnet 4.6은 “걸어가라”고 답했는데, 미국인들의 짧은 거리 운전 습관을 풍자한 듯한 답변이라 재밌었음
- 이 테스트가 가장 마음에 든다는 반응. 모델이 Reddit식 유머 데이터로 훈련된 게 느껴진다고 함
-
Sonnet 4.6이 Opus 4.5 수준의 성능이라는 점이 놀라움. 발전 속도가 1990년대 컴퓨팅 성능 향상 속도를 연상시킴
- 진짜 흥미로운 건 성능 상향보다 하한선 상승임. Opus급 추론을 Sonnet 가격과 지연으로 얻을 수 있다는 건 혁신적임. 6~9개월마다 같은 지능 단위를 절반의 연산비로 얻는 셈임
- “1990년대 속도”라는 말에 “RAM 가격도 그 시절 수준”이라는 농담이 이어짐
- simonw 대신 “자전거 타는 펠리컨 SVG”를 생성해 공유함. 이미지 링크
- Opus가 NYC 야경 사진을 잘못 묘사했다는 사례도 있음. Mistral은 더 정확했음. OpenAI는 URL 업로드를 막았고, Gemini는 VertexAI로 연결됨. Langchain 환경에서 테스트함
- 시스템 카드에 따르면 Sonnet 4.6은 오피스 작업과 재무 분석에서 Opus 4.6보다 낫다고 명시되어 있음
-
Sonnet 4.5의 가격이 $3/$15 per million tokens인데, 이 가격을 감수할 사람이 많을까 의문임. 오픈웨이트 모델들이 빠르게 따라잡고 있고 훨씬 저렴함
- 나는 하이브리드 접근을 시도 중임. GLM5로 대부분 처리하고, 마지막 단계에서 Opus/Sonnet으로 버그 검수함
- 내 간단한 벤치마크에서는 Claude 4.6이 무료 Stepfun 3.5보다 못했음. aibenchy.com 참고. 여전히 지시 따르기 정확도가 낮음
- 결국 “꽤 괜찮음”과 “SOTA”의 차이를 얼마나 가치 있게 보느냐의 문제임. 오류가 많은 모델을 쓰는 것도 결국 비용임
- 어떤 사람들은 Claude처럼 맥락 추론이 강한 모델을 선호함. GLM은 세세한 명시가 필요함
-
Opus/Sonnet 4.6 지원을 llm.datasette.io 플러그인에 추가하느라 펠리컨 이미지를 늦게 만들었음. 결과물은 Opus 4.5 수준이며, 멋진 실크해트를 쓴 버전임
관련 블로그- 다른 시도에서도 그 실크해트 펠리컨을 봤다는 댓글이 있음
-
최근 며칠간 Sonnet 4.5로 테스트 중이었는데, 대화가 이상할 정도로 흥미롭고 일관성 있었음.
개인 설정으로 “객관적 사실과 비판적 분석 우선, 감정적 공감 금지”를 넣었더니 정말 잘 따름. ChatGPT도 비슷하게 반응함 -
여러 사용자가 Opus 4.6이 4.5보다 토큰을 5~10배 더 소비한다고 보고함. 이슈 링크. 공식 답변은 아직 없음. 그래서 4.5를 계속 쓰려 함
- 문제를 겪는 사람만 목소리가 큰 법임. 나는 4.6이 더 빠르고 도구 호출이 적극적이라 만족함. reasoning level을 medium으로 낮추면 과도한 사고를 줄일 수 있음
- 내 경험상 Opus 4.5는 계획 고수형, 4.6은 적응형 탐색형임. 쉬운 문제에서는 비효율적이지만 어려운 문제에서는 훨씬 빠름
- /models에서 reasoning level을 확인할 수 있음. high로 설정하면 토큰 사용이 급증함
- 나도 며칠 만에 월 예산을 다 써버림
- 내 실험에서는 4.6이 4.5보다 15~45% 정도 토큰을 더 사용했음. 하지만 이는 불완전한 프롬프트에서 추론을 요구하는 경우였음. 잘 작성된 작업에서는 큰 차이 없음. Sonnet 4.6의 reasoning token은 이전보다 더 구조적이지만 점점 장황해지는 경향이 있음. Google 모델과 유사한 스타일임