Claude Sonnet 4.6 공개

(anthropic.com)

9P by GN⁺ 5달전 | ★ favorite | 댓글 1개

코드 작성, 컴퓨터 사용, 장기 추론, 에이전트 계획, 지식 작업, 디자인 등 전 영역에서 성능이 향상된 Anthropic의 최신 Sonnet 모델
1M 토큰 컨텍스트 윈도우 를 지원하며, Sonnet 4.5 대비 일관성·명령 수행·코드 품질이 크게 개선됨
Opus 4.5 수준의 지능을 더 낮은 비용으로 제공하며, 실제 업무·문서 이해·프론트엔드 설계 등에서 인간 수준의 결과를 보임
OSWorld 벤치마크에서 컴퓨터 사용 능력이 지속적으로 향상되었고, 프롬프트 인젝션 방어력도 강화됨
개발자와 기업이 고비용 모델 없이도 프런티어급 추론과 코드 품질을 활용할 수 있게 된 점이 핵심

Claude Sonnet 4.6 개요

Sonnet 4.6은 Anthropic의 가장 강력한 Sonnet 시리즈 모델로, 코딩·컴퓨터 사용·장기 추론·지식 작업·디자인 등 전반적 능력 업그레이드
- 1M 토큰 컨텍스트 윈도우(베타) 를 지원해 대규모 코드베이스나 긴 문서를 한 번에 처리 가능
Free 및 Pro 요금제 사용자에게 기본 모델로 적용, 가격은 Sonnet 4.5와 동일하게 100만 토큰당 $3/$15 유지
초기 사용자들은 Sonnet 4.6을 Sonnet 4.5보다 압도적으로 선호, 일부는 Opus 4.5보다도 선호
안전성 평가 결과, 이전 모델보다 안전하거나 동등 수준으로, “따뜻하고 정직하며 친사회적 성격”을 보였다고 평가됨

컴퓨터 사용 능력

Sonnet 4.6은 사람처럼 컴퓨터를 조작할 수 있는 모델로 발전
- Chrome, LibreOffice, VS Code 등 실제 소프트웨어를 가상 환경에서 조작하며 OSWorld 벤치마크로 평가됨
16개월간 지속적인 성능 향상으로, 복잡한 스프레드시트 탐색이나 다단계 웹폼 작성 등에서 인간 수준의 능력 확인
여전히 최고 숙련 인간보다는 부족하지만, 작업 효율 향상 속도가 매우 빠름
프롬프트 인젝션 공격에 대한 방어력이 Sonnet 4.5보다 크게 개선되어, Opus 4.6과 유사한 수준의 안전성 확보

성능 평가 및 벤치마크

Sonnet 4.6은 Opus급 지능을 더 낮은 비용으로 제공, 다양한 벤치마크에서 전반적 향상
- Claude Code 테스트에서 사용자 70%가 Sonnet 4.6을 선호, 코드 수정 시 문맥 이해와 중복 최소화 능력 향상
- Opus 4.5 대비 59% 선호, 과도한 설계나 게으름 현상 감소, 명령 수행 정확도 향상
Vending-Bench Arena에서 장기 경영 시뮬레이션 수행 중 초기 투자 후 후반 수익 집중 전략으로 경쟁 모델을 앞섬
OfficeQA에서 Opus 4.6과 동등한 문서 이해력, Financial Services Benchmark에서 답변 일치율 상승
보험 벤치마크 94% 정확도, Box 테스트에서 15% 향상된 심층 추론 성능 기록
Rakuten AI 테스트에서 최고 수준의 iOS 코드 생성, 현대적 툴링 활용 및 아키텍처 품질 개선

제품 및 플랫폼 업데이트

Claude Developer Platform에서 adaptive thinking, extended thinking, context compaction(베타) 지원
- 오래된 문맥을 자동 요약해 효과적 컨텍스트 길이 증가
API 도구 업데이트:
- web search와 fetch가 자동으로 코드 작성·실행해 검색 결과를 필터링
- code execution, memory, programmatic tool calling, tool search 등 기능이 일반 제공
Claude in Excel 애드인에서 MCP 커넥터 지원, S&P Global·LSEG·PitchBook 등 외부 데이터와 연동 가능
Sonnet 4.6은 extended thinking 없이도 높은 성능 유지, Sonnet 4.5 사용자에게 마이그레이션 권장
Opus 4.6은 여전히 가장 깊은 추론이 필요한 작업(코드 리팩터링, 다중 에이전트 조정 등)에 적합

사용 가능 경로

Sonnet 4.6은 모든 Claude 요금제, Claude Cowork, Claude Code, API, 주요 클라우드 플랫폼에서 이용 가능
무료 요금제도 Sonnet 4.6으로 업그레이드, 파일 생성·커넥터·스킬·컴팩션 기능 포함
개발자는 claude-sonnet-4-6 모델명을 통해 Claude API에서 즉시 사용 가능

주요 수치 및 평가 지표 (각주 요약)

OSWorld: 실제 소프트웨어 기반 컴퓨터 작업 평가, Sonnet 4.6은 ‘thinking off’ 상태에서 측정
SWE-bench Verified: 10회 평균 80.2% 점수
ARC-AGI-2: 최대 노력 모드에서 60.4% 달성
MMMU-Pro: 평가 방식 개선 후 점수 조정
Humanity’s Last Exam, BrowseComp 등 다양한 실험에서 도구 사용·웹 검색·맥락 압축 기능 활성화 상태로 테스트 수행

GN⁺ 5달전 [-]

Hacker News 의견들

컴퓨터 사용에 초점을 맞춘 점이 인상적임. 그만큼 가치가 크다고 판단한 듯함. 하지만 안전성 부분은 여전히 의문임. 그들의 자체 평가에 따르면, 자동 공격 시스템이 8% 확률로 단 한 번의 시도로 침입에 성공했고, 무제한 시도 시에는 50%까지 성공했다고 함. 이런 수치는 받아들이기 어려움. 혹시 내가 뭔가 잘못 이해한 게 아니라면, 이건 실사용 불가능한 수준임
안전성 평가 PDF
- 이 기술의 목표는 사실상 컴퓨터 I/O 관련 노동의 독점임. SWE뿐 아니라 대부분의 사무직이 대상이 됨. 한 명이 세 명의 일을 하게 만들어 인력 감축을 유도함. 기업 입장에서는 같은 돈을 벌면서 인건비를 1/3로 줄일 수 있으니 마다할 이유가 없음. 하지만 이런 구조에서는 누구나 LLM으로 비즈니스를 만들 수 있고, 결국 경쟁이 과잉되어 수익률이 0에 수렴함. 모두가 같은 모델을 쓰면 차별화가 사라짐. 오히려 강력한 오픈소스 모델조차 사회적 이동성을 약화시킬 수 있음
- 8% 수치는 오히려 놀라울 정도로 양호하다고 생각함. 중요한 건 모델 자체보다 운영 환경의 통제 장치임. 실제 서비스에서는 모니터링과 킬 스위치가 필수임. 모델이 “충분히 안전”한 건 필요조건일 뿐, 충분조건은 아님
- 이건 아무도 말하지 않으려는 핵심 문제임. 안전성이 해결되지 않으면 대규모 노동 대체는 불가능함. 요약이나 보조 수준의 사용은 괜찮지만, 자율적 의사결정을 맡기면 법적 리스크가 폭발함. 결국 AI 기업들은 이 문제를 해결하지 못하면 자금이 바닥날 것임. 지금 흐름으로는 AI가 검색이나 맞춤법 검사기처럼 유용한 도구로 남겠지만, 대규모 일자리 대체는 실현되지 않을 것 같음
- 실제로는 단순 반복적인 내부 앱 자동화 같은 곳에서 유용할 수 있음. 예를 들어 매일 같은 웹앱에 로그인해 캘린더를 읽고 버튼을 누르는 일 등. 이런 환경에서는 공격자가 없으므로 안전성 문제가 거의 사라짐
- 8%와 50% 수치는 우려스럽지만, 이는 ‘컴퓨터 사용 환경’ 에서의 결과임. 코딩 환경에서는 확장 사고를 켠 상태에서 0.0%였다고 함. 즉, 아직 실험적 영역임
개인 시집 약 900편을 Sonnet 4.6에 넣어 테스트했는데, Opus 4.6과 비교하면 큰 차이가 있음. Opus 4.6은 놀라운 분석을 보여줬지만 Sonnet 4.6은 여전히 환각과 오류가 잦음. 코딩 테스트에서도 비슷한 인상임. Opus에 비하면 한참 부족함
- 오랜만에 시 테스트를 보니 반갑다는 반응. 이런 분석들을 한데 모아 정리해주면 좋겠다는 의견임
- Opus 4.6은 코드 작성에서 생산성이 3배 이상 향상됨. 프로젝트 전체를 책임감 있게 다루며, 사용자의 의도를 잘 파악함. 이전 버전처럼 몰래 지름길을 택하거나 결과를 망치는 일이 없음
Sonnet 4.6이 여전히 ‘세차장 문제’ 를 틀림. 원문 질문을 그대로 넣었는데 “걸어가라”고 답함. 여러 변형을 시도해도 비슷한 실패를 보였음
- 내 테스트에서는 반대로 “운전해라”라고 즉답함. “세차하러 가는 거니까 차가 있어야 한다”는 식으로 단호했음. 아마 서로 다른 버전이 제공된 듯함
- 이런 답변의 양극단이 흥미로움. 자신감 있는 오류, 전형적인 환각 패턴임
- 어떤 답변은 “차를 밀고 가라”고 제안함. 공유 링크
- 또 다른 답변은 “걸어가라, 30초 거리다”라며 환경과 건강을 이유로 제시함. 확장 사고는 꺼둔 상태였음
- 이 질문은 앞으로 벤치마크 테스트로 자주 쓰일 듯함
“경쟁은 소비자에게 좋다”는 말을 실감함. 시장 경쟁이 치열할수록 결과물이 좋아짐
- 하지만 지금의 AI 경쟁은 ‘무방비한 무기 경쟁’ 처럼 보임. 승자독식 구조라 모두가 손해를 보며 투자함. 과잉 투자로 인해 사회 전체적으로는 비효율적일 수 있음
- GPT-2가 2019년에 “위험해서 공개 불가”였던 걸 생각하면, ChatGPT 출시가 이 경쟁을 촉발한 계기였음
- 모든 시장이 완전경쟁처럼 작동한다고 믿는 건 위험함. 실제로는 독점·정보 비대칭이 많음
- 지금 AI 시장은 인류 역사상 가장 치열한 경쟁 구도 중 하나임. 모델을 일부러 나쁘게 만든다는 음모론은 설득력이 없음
- 결국 두 기업만 남으면 수익 회수 단계가 올 것임
“헬리콥터 세차장” 테스트가 최고였음. Sonnet 4.6은 “걸어가라”고 답했는데, 미국인들의 짧은 거리 운전 습관을 풍자한 듯한 답변이라 재밌었음
- 이 테스트가 가장 마음에 든다는 반응. 모델이 Reddit식 유머 데이터로 훈련된 게 느껴진다고 함
Sonnet 4.6이 Opus 4.5 수준의 성능이라는 점이 놀라움. 발전 속도가 1990년대 컴퓨팅 성능 향상 속도를 연상시킴
- 진짜 흥미로운 건 성능 상향보다 하한선 상승임. Opus급 추론을 Sonnet 가격과 지연으로 얻을 수 있다는 건 혁신적임. 6~9개월마다 같은 지능 단위를 절반의 연산비로 얻는 셈임
- “1990년대 속도”라는 말에 “RAM 가격도 그 시절 수준”이라는 농담이 이어짐
- simonw 대신 “자전거 타는 펠리컨 SVG”를 생성해 공유함. 이미지 링크
- Opus가 NYC 야경 사진을 잘못 묘사했다는 사례도 있음. Mistral은 더 정확했음. OpenAI는 URL 업로드를 막았고, Gemini는 VertexAI로 연결됨. Langchain 환경에서 테스트함
- 시스템 카드에 따르면 Sonnet 4.6은 오피스 작업과 재무 분석에서 Opus 4.6보다 낫다고 명시되어 있음
Sonnet 4.5의 가격이 $3/$15 per million tokens인데, 이 가격을 감수할 사람이 많을까 의문임. 오픈웨이트 모델들이 빠르게 따라잡고 있고 훨씬 저렴함
- 나는 하이브리드 접근을 시도 중임. GLM5로 대부분 처리하고, 마지막 단계에서 Opus/Sonnet으로 버그 검수함
- 내 간단한 벤치마크에서는 Claude 4.6이 무료 Stepfun 3.5보다 못했음. aibenchy.com 참고. 여전히 지시 따르기 정확도가 낮음
- 결국 “꽤 괜찮음”과 “SOTA”의 차이를 얼마나 가치 있게 보느냐의 문제임. 오류가 많은 모델을 쓰는 것도 결국 비용임
- 어떤 사람들은 Claude처럼 맥락 추론이 강한 모델을 선호함. GLM은 세세한 명시가 필요함
Opus/Sonnet 4.6 지원을 llm.datasette.io 플러그인에 추가하느라 펠리컨 이미지를 늦게 만들었음. 결과물은 Opus 4.5 수준이며, 멋진 실크해트를 쓴 버전임
관련 블로그
- 다른 시도에서도 그 실크해트 펠리컨을 봤다는 댓글이 있음
최근 며칠간 Sonnet 4.5로 테스트 중이었는데, 대화가 이상할 정도로 흥미롭고 일관성 있었음.
개인 설정으로 “객관적 사실과 비판적 분석 우선, 감정적 공감 금지”를 넣었더니 정말 잘 따름. ChatGPT도 비슷하게 반응함
여러 사용자가 Opus 4.6이 4.5보다 토큰을 5~10배 더 소비한다고 보고함. 이슈 링크. 공식 답변은 아직 없음. 그래서 4.5를 계속 쓰려 함
- 문제를 겪는 사람만 목소리가 큰 법임. 나는 4.6이 더 빠르고 도구 호출이 적극적이라 만족함. reasoning level을 medium으로 낮추면 과도한 사고를 줄일 수 있음
- 내 경험상 Opus 4.5는 계획 고수형, 4.6은 적응형 탐색형임. 쉬운 문제에서는 비효율적이지만 어려운 문제에서는 훨씬 빠름
- /models에서 reasoning level을 확인할 수 있음. high로 설정하면 토큰 사용이 급증함
- 나도 며칠 만에 월 예산을 다 써버림
- 내 실험에서는 4.6이 4.5보다 15~45% 정도 토큰을 더 사용했음. 하지만 이는 불완전한 프롬프트에서 추론을 요구하는 경우였음. 잘 작성된 작업에서는 큰 차이 없음. Sonnet 4.6의 reasoning token은 이전보다 더 구조적이지만 점점 장황해지는 경향이 있음. Google 모델과 유사한 스타일임

답변달기

Claude Sonnet 4.6 공개

Claude Sonnet 4.6 개요

컴퓨터 사용 능력

성능 평가 및 벤치마크

제품 및 플랫폼 업데이트

사용 가능 경로

주요 수치 및 평가 지표 (각주 요약)

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들