Claude Sonnet 4.5

(anthropic.com)

4P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Claude Sonnet 4.5는 코딩, 추론, 수학 능력에서 최고 수준의 성능을 보여주는 최신 AI 모델임
업데이트된 Claude Code는 체크포인트, 개선된 터미널 UI, VS Code 확장, 메모리 관리 기능이 추가되어 복잡한 작업을 장시간 지속할 수 있음
새롭게 공개된 Claude Agent SDK는 에이전트 개발을 위한 핵심 인프라를 제공해 다양한 문제 해결 도구를 직접 구축할 수 있게 함
SWE-bench, OSWorld 등 벤치마크에서 경쟁 모델을 크게 앞서며, 수리·추론·도메인 적합성 등에서 강점을 입증함
안전성 측면에서도 가장 정렬(alignment)이 잘된 모델로 평가되며, 프롬프트 주입 방어와 위험 콘텐츠 차단 성능이 향상됨

Claude Sonnet 4.5 개요

Claude Sonnet 4.5는 현존 최고의 코딩 모델이며, 복잡한 에이전트 구축 및 컴퓨터 사용에서 가장 강력한 성능을 보임
- 소프트웨어, 스프레드시트, 각종 도구 등 우리가 활용하는 모든 현대 작업 환경에서 코드는 핵심 요소임
추론과 수학적 문제 해결 능력 또한 기존 모델 대비 현저하게 향상되어, 다양한 전문 분야에서 활용성이 높아짐
기존 Sonnet 4와 동일한 가격(백만 토큰당 $3 / $15)으로 제공

주요 제품 업데이트

Claude Code
- 체크포인트 기능 도입으로 작업 중간 저장 및 롤백 지원
- 터미널 인터페이스 개선, VS Code 네이티브 확장 출시
- 맥락 편집(context editing)과 메모리 도구 추가, 장기적·복잡한 작업 처리 지원
Claude Apps
- 코드 실행 및 파일 생성(스프레드시트, 슬라이드, 문서)을 대화 안에서 직접 지원
Claude for Chrome
- Max 사용자 대상 확장 프로그램 제공, 브라우저 내 작업 자동화 지원

Claude Agent SDK

Anthropic 내부에서 Claude Code를 만들 때 사용한 에이전트 인프라를 외부 개발자에게 공개
장기 메모리 관리, 권한 제어, 다중 서브에이전트 조율 같은 난제를 해결한 기반 제공
코딩 외에도 다양한 에이전트 제작에 활용 가능

성능과 벤치마크

SWE-bench Verified에서 최고 성능 기록, 장기 멀티스텝 코딩 작업을 30시간 이상 지속 가능
OSWorld 벤치마크에서 61.4% 달성 (이전 Sonnet 4는 42.2%)
추론·수학·다국어 평가(MMMLU) 에서의 능력도 대폭 향상, 금융·법률·의학·STEM 전문가들의 평가에서도 높은 우수성 입증
고객 피드백을 통해 장기 작업, 복잡한 코드베이스 이해, 빠르고 정확한 코드 구현 등 실무 Production 적용성 검증

고객 사례

Cursor: 복잡한 문제 해결에서 최고 성능 확인
GitHub Copilot: 멀티스텝 추론과 코드 이해력 향상
보안 분야: 취약점 대응 시간 44% 단축, 정확도 25% 증가
Canva, Figma: 대규모 코드베이스 작업과 프로토타이핑에서 혁신적인 생산성 개선
Devin: 계획 성능 18% 향상, 코드 테스트 및 실행 능력 강화

안전성과 정렬

Sonnet 4.5는 Anthropic이 발표한 모델 중 가장 정렬(alignment) 수준이 높음
아부(sycophancy), 기만, 권력 추구, 망상 조장 등 바람직하지 않은 행동 감소를 위해 안전성 강화 학습 진행
프롬프트 인젝션 공격 방어에서 상당한 진전, 안전성 평가에 메커니즘 해석 기법도 도입
자동 행동 감사 시스템을 통한 오용 가능성 자동 점수 산출, 높은 안전 기준 충족
AI Safety Level 3(ASL-3) 보호 하에 출시되어, 위험한 입력·출력에 대해 필터링(예: 화학, 생물, 방사선, 핵 관련 위험) 적용

연구 미리보기

Claude Sonnet 4.5와 함께 "Imagine with Claude" 라는 임시 연구 프리뷰 제공
예약된 코드나 기능 없이, 사용자의 요청에 실시간 반응·적응하며 즉석에서 소프트웨어 생성 시연
Max 구독자 대상으로 5일간 체험 가능

추가 정보 및 마이그레이션

기존 Claude 제품 및 API 사용자에게 Sonnet 4.5 즉시 적용 가능, 가격은 Sonnet 4와 동일(백만 토큰당 $3/$15)
코딩, 파일 생성, 코드 실행 등 새로운 기능은 모든 유료 플랜에서 제공
자세한 기술 세부사항, 평가 결과 등은 System Card, Claude Model page, 공식 문서 에서 확인 가능
Claude Agent SDK로 에이전트 개발, 사이버 보안, 효과적인 컨텍스트 엔지니어링 링크 참고

결론 및 권장

Claude Sonnet 4.5는 API, 앱, Claude Code 등 모든 사용 환경에서 성능 개선된 드롭인 교체 모델
코딩, 에이전트 구축, 컴퓨터 활용에서 세계적인 수준의 성능과 적용성, 정합성을 모두 갖춤
뛰어난 안전성 정책과 폭넓은 개발자 도구 지원 으로 개발자 및 IT 조직의 생산성·혁신을 가속화할 것
동일한 가격으로 더 강력한 기능을 제공하므로 업그레이드 권장

▲

GN⁺ 3달전 [-]

Hacker News 의견

이번 주말에 사전 공개 버전에 접근할 수 있었음, 관련 메모를 여기에 정리해둠
개인적으로는 매우 인상적이었고, 종합적인 비교라기보다는 느낌상 GPT-5-Codex보다 약간 더 나은 성능을 보여줌
특히 claude.ai의 새로운 Python/Node.js 코드 인터프리터 모드에서 빛을 발한다고 봄
아래처럼 프롬프트를 사용해보길 추천함

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

복잡한 데이터베이스 리팩토링도 단계적으로 잘 처리했음, 자세한 내용은 블로그에 기록함

@simonw 및 LLM 벤치마크 관심 있는 분들께 요청하고 싶은 부분이 있음
작업 완료까지 걸린 시간을 꼭 공개해줬으면 함
이 글은 “claude.ai에서 바로 작동함”이라는 후기지만, 결과물이 언제 도출됐는지 타임스탬프 정보가 없음
실제 LLM 코딩 리더보드에도 수행 시간 정보가 전혀 없어서 아쉬움
모델, 플랫폼마다 작업 시간 차이가 크고, 반복 실험/리부팅, 프롬프트 개선 시에는 추론 속도, 토큰 소비량, 툴링 효율, 비용, 모델 지능이 모두 복합적으로 작용함
특히 Grok Code Fast 그리고 Cerebras Code 같은 모델들은 최고 성능 아니어도 10배 이상의 추론 속도로 더 많은 작업을 처리하게 해줌, 빠른 모델이 진짜 유리함
참고할만한 벤치마크: swebench, tbench 리더보드, gosuevals agents
시도해봤는데 내 환경에선 작동하지 않음
LLM CLI 툴 세팅을 위한 커맨드라는데, -e 옵션은 수정 가능한 상태로 설치하고, [test]는 테스트 의존성 설치임
내가 가진 툴에서는 shell 커맨드(pip, pytest)나 git clone, 파이썬 실행 등을 지원하지 않음
브라우저 환경에서 자바스크립트 실행만 가능하고, shell 레벨 명령 실행 불가임
너가 무엇을 기대했는지 궁금함, 테스트 세팅 이해가 필요한지, 아니면 기능 자체를 바란 것인지 묻고 싶음
“zip 파일로 만들어달라”는 프롬프트 사용 사례에 대해 궁금한 사람들을 위해
gist를 직접 열어볼 시간 없는 분들이 많을텐데, 제대로 작동했는지, 결과물에 대한 추가적인 소감이 있다면 듣고 싶음
Claude Sonnet 4.5도 여전히 모든 질문에 “정말 맞습니다!” 식의 답변을 내놓는지, 아니면 이제는 진짜 프로그래머처럼 대화하는지 궁금함
왜 사전 프리뷰 권한을 얻을 수 있었는지 궁금함
실제 경험을 공유함
약 20만 LoC의 대형 웹앱에 동일한 프롬프트를 Sonnet 4.5(Claude Code)와 GPT-5-Codex에 적용해봤음
“‘Go to Conversation’ 또는 ‘Go to Report’에서 타이틀 입력해 표준 요소와 불일치할 때 2초 후 퍼지 서치 수행”이라는 요구
Sonnet 4.5는 약 3분만에 결과를 냈지만, 코드가 엉성하고 기존 인증(auth)도 재활용 못 하고 서버 사이드 인증을 새로 만들려 했음
문제 지적 및 재프롬프트에도 큰 개선 없었고, 필수 요건인 테스트 코드도 작성되지 않았음
반면, GPT-5-Codex는 약 20분이나 소요됐지만, 에러 핸들링과 각종 엣지 케이스를 철저하게 다루고, 별도 지시 없이도 테스트 코드를 작성해줬음
API도 매끄럽게 동작했고, 전체 구현 완성도에서 Senior 개발자급 퀄리티를 보여줌
3분 만에 나오는 ‘빠르고 지저분한’ 구현은 원치 않아서 무조건 20분을 택함
기대한 만큼 Sonnet이 빠른 결과를 보여 놀라긴 했으나, 제대로 된 퀄리티와 테스트 없는 구현은 의미가 없었음
- 비판으로 들릴까 걱정되지만, 저런 간단한 문장 형태의 프롬프트로 시작하면 결과도 다소 무작위로 나올 수밖에 없다고 생각함
  논리적 묶음이나 세부 조건을 더 명확히 구성하는 게 중요한데, 프롬프트 예시도 런온 센텐스에 가깝게 되어 있음
  복잡하거나 중요한 작업에선 프롬프트가 5~20배 길어질 정도로 구체적이어야 한다고 생각함
  input이 structured하고 코드베이스도 패턴이 잘 잡혀 있으면 AI도 훨씬 좋은 결과를 반환함
  실제 Junior 개발자나 팀에 간략한 한 문장 요구만 세부 설명 없이 준다면 원하는 결과가 안 나와도 이해할 수밖에 없는 상황
  초기 프롬프트 준비에 몇 분만 더 투자하면 만족스러운 결과 확률도 높아질 것이라 조언함
- ChatGPT Pro 유료 플랜을 쓰는지, 거기에 Codex CLI도 포함되는지 궁금함
  Claude Code는 Max 플랜 때문에 Sonnet/Opus 활용 중인데, ChatGPT Pro도 Codex 쓸 수 있다면 변경 의사 있음
- 나도 같은 경험임
  지난주 Codex로 완전한 C++20 XPath 1.0 파서를 성공적으로 개발했고, 이제 XPath 2.0 지원도 진행 중임
  Codex는 계속해서 탁월한 결과를 내주며, 클라우드 버전 사용(로컬은 버그 때문에 어려움) 외에는 딱히 문제 없음
  Sonnet은 복잡성 높은 작업에서 계속 막히고, 4.5도 별다른 발전이 체감되지 않음
  구체적으로 date-time 처리는 Claude가 거의 포기한 반면, Codex는 이를 완벽하게 소화함
  사실 Anthropic에 호의를 갖고 있었지만, 현재까지는 OpenAI가 훨씬 앞서 있다고 봄
  Codex와 경쟁하려면 Claude가 중요한 돌파구를 만들어야 함, 게다가 가격도 비싸고 서비스 품질 이슈로 이용자 이탈이 심함
- 내 기대치와 부합함
  Codex는 vibe coding 툴에 가깝고 Claude Code는 ai assisted development 쪽에 초점이 맞춰져 있음
  나는 오히려 Claude를 더 선호함
  Codex는 독립적으로 잘 돌아가지만, 방향이 달라질 때(예: 매우 단순한 파일 편집도 굳이 파이썬 스크립트로 처리) 미묘하게 고집이 세고, 최신 정보 반영도 부족함
  설명 요청 시에도 맥락 없이 실행만 하려는 경향이 있음
  권한 관리 문제도 여전함. Codex의 sandbox는 멋지긴 해도 실수로 커밋을 할까 우려되어, 차라리 편집까지만 하길 원함
  Codex를 MCP 서버로 쓸 수도 있지만, 개인적으로는 Claude를 협업 플래너로 두고 Codex로 계획 세운 뒤, Claude와 내 스타일로 맞추며 공동 작업하는 방식을 선호함
- ultrathink를 프롬프트에 추가하고 곡을 틀면서 실험해보는 것도 추천함
  참고: ultrathink 관련 Reddit 링크
최근 모델들의 능력을 보며 우울함을 느낌
몇 년간 노력해 쌓아온 깨끗한 코드 작성의 세세한 노하우들이 무의미한 디테일로 전락하는 것 같음
예전엔 본질적이라 여겼던 것들이 이제는 프롬프트의 ‘구현 세부사항’이 되어가는 현실임
마치 내 능력이 점점 자동화로 대체되는 듯한 기분임
- 그런 세부 노하우들은 본래도 중요성이 애매했음, 진짜 스킬은 결국 소프트웨어로 돈을 버는 과정 그 자체임
  AI 때문에 오히려 더 많은 소프트웨어가 생성되고, 전문가의 관리가 필요해질 것임
- 나도 AI 전문 직종으로 몇 달 집중해 일하면서 처음 4주 이상은 같은 위기감을 느낌
  특히 25년 간 쌓아온 개발 역량이 무의미해진 느낌에 혼란스러웠음
  조금만 더 받아들이고 적응하다 보면 훨씬 괜찮아질 것임
  나는 내 코딩 실력 그 이상이라는 사실을 꼭 기억했으면 함
- 예전엔 타인을 자동화로 대체한다는 현실이 반가웠겠지만, 이제 본인 차례가 된 것임
  이것이 바로 경제를 역동적으로 만드는 ‘창조적 파괴’ 현상임
- 예전엔 그렇게 생각했지만, 최근엔 실제로 써보니 영 실용적이지 않단 결론임
  특히 경험이 없는 사람들이 vibe coding에 의존하면 의미 없는 결과만 나오고, 조금만 복잡한 작업에도 치명적인 오류/실수가 빈번함
  프론트엔드 자동화도 만족스럽지 않고, 예를 들어 아주 간단한 작업마저도 필요 이상으로 긴 코드를 생성함
  결국 기본적인 react/nextjs 프런트엔드와 인기 사이트 클론까지만 가능하고, 특이한 요구나 정교한 설계는 힘들다고 본 경험임
- 실제로 vibe coding 도구들이 생산성을 크게 올려주지 않음
  종합하면, 시스템(코드/인프라 등) 유지보수는 여전히 사람이 책임져야 하고, humans가 시스템의 구조와 동작 원리를 파악하는 과정은 절대 자동화할 수 없음
  결국 전문가적 사고를 가진 개발자는 희소성 높은 존재가 되어 더욱더 중요해질 것임
간단한 코드 교체 작업을 Sonnet 4와 Opus 4.1로 시켰는데 모두 실패함
초보자도 할 수 있는 변환이었지만, 모델들은 벤치마크 점수만 좇다가 실사용 성능을 오히려 놓히고 있다고 걱정함
후속 프롬프트(“정확히 내 요청을 따르라”)를 줬더니 Sonnet은 성공, Opus는 무한 루프에 빠짐
- 벤치마크 집착이 실제 성능에 해악일 수 있다는 게 오랫동안 우려였음
  Claude는 3.7에서 4로 올라가면서 내 체감 성능은 오히려 떨어진 반면, 벤치마크는 크게 뛰었음
  그만큼 벤치마킹 자체가 AI 발전보다 뒤처진 숙제라는 건 이해함
- 사실상 ‘벤치마크 돌려서 최고 점수 기록 → 실제론 성능 내리기 → 몇 주 뒤 더 나은 모델 출시에 반복’ 식의 사이클이 계속된다고 봄
- 모델들이 같은 데이터 소스(인터넷, github, 책 등)만 참고하며 표준화된 테스트에 최적화하는 상황이라, 점수 이외 어떤 차별점이나 고유가치가 남는 건지 모르겠음
- 이제는 LLM이 잘못 처리한 예시들을 커뮤니티 데이터베이스로 모으는 게 좋겠다고 생각함, 내 손에도 그런 사례들이 많음
- 간단한 린트 오류 수정 요청 같은 건 직접 처리하고 넘기는 게 낫다고 생각함
  이런 단순 작업 하나에 의미를 부여하려 하기보다는, AI가 훨씬 더 복잡한 문제에서 훌륭한 결과를 낼 때 효용을 찾아야 함
차트상 Sonnet 4가 이미 SWE verified 벤치마크에서 GPT-5-codex보다 앞선 걸로 보이지만, 실제 내 체감상 복잡한 문제에선 GPT-5-codex가 월등히 뛰어남
- GPT-5는 야구에서 홈런은 잘 치지만 외야수 기본기는 부족한 팀원 느낌임
  다른 에이전트들과의 협업 중에도 종종 드라마를 만들고, 최근 claude code로 스위칭한다고 하자 git reset --hard를 고집하는 등 예측 불가한 행동을 함
  반면 gemini와 claude는 훌륭한 협업자임
  이런 일련의 흐름은 GPT-5에 의도된 건 아니라고 봄, OpenAI 내 사기가 많이 떨어진 결과라 생각함
- 내 경우는 5-codex가 토큰을 너무 빨리 소모해버렸고, agents.md 지침도 Claude보다 덜 지켰음
  특히 별 것 아닌 명령에도 거창한 bash나 python 스크립트를 작성하려고 함
- 내 경우는 정반대임, GPT-5-codex는 매우 느려서 결과물도 평범함
  강제로 써야 한다면 AI 활용 자체를 포기할 마음임
- 모델의 성능이 절대적인 기준이 있다고 생각하지 않음
  예컨대 Claude-Opus를 지정해도 때론 초저가 모델보다 못한 답변이 돌아옴
  성능 변동성이 큰데, 아마 트래픽 상황 따라 서버 자원이 달라지는 것 같음
  Anthropic도 한때 실험 여파로 성능 저하를 공식적으로 언급한 바 있음
  GPT도 피크 타임에는 data center 용량 문제로 성능이 저하될 수 있다는 생각이 듬
- Anthropic 모델들은 vibe-coding에 맞춰 튜닝된 것 같음
  간단한 파이썬/타입스크립트에는 잘 맞으나, 과학적/복잡한 코드와 대규모 코드베이스에는 약함
  신형 Sonnet도 큰 변화는 기대하지 않음
“30시간 넘게 집중을 잃지 않고 복잡한 멀티스텝 과제를 수행”이란 홍보 문구에 관심이 많음
The Verge 기사 등에 따르면 실제로 11,000라인 코드를 활용해 Slack 클론을 30시간 연속 생성했다는데
실제로 LLM을 30시간 무인 상태로 돌렸을 때 산출물 퀄리티가 얼마나 나올지 회의적임
관련 기사
- 30시간 연속 수행은 LLM 혼자 둔다고 실현 가능한 단계가 아님
  별도의 외부 툴 연동, 컨텍스트 관리 등 환경 구성이 필수이고, 다중 에이전트 시스템 설정까지 요구됨
  매우 많은 인프라/세팅 노력이 들어가야 가능한 작업임
- “30시간 동안 무인 작업”이라는 말 자체가 너무 모호해서 구체성 없음
  예를 들어 1시간에 1토큰씩 처리한다면 문장 한 줄 만드는 단계에 그칠 수도 있다는 것임
- 모델 컨텍스트 관리 도구들이 실제로 사용된 것인지, 20만에서 100만 토큰 프롬프트로 어떤 방식 운용됐는지 기술적 디테일이 궁금함
간단한 이슈를 막 실험해봤는데, 기존 모델들처럼 Sonnet 4.5도 토끼굴에 빠지듯 지나치게 복잡하게 문제를 시도함
대부분 trial & error식으로, “이제 문제 해결됐을 것 같아요”라는 식의 피드백만 반복됨
예를 들어 GH Actions pipeline에서 소스파일 없어 build system이 감지되지 않는 오류가 있었는데, Sonnet 4.5는 왜곡된 해법(더미 JSON 파일 생성, 존재하지 않는 워크플로우 파라미터 설정)을 반복함
정작 간단하게 “Hello world”만 출력하도록 step을 오버라이드하면 끝나는 문제였음
AI가 이렇게 단순한 ‘상자 밖’ 사고방식에 약한 이유가 궁금함
마치 170 IQ 천재가 대중교통도 타지 못하는 느낌임
Gemini, Claude, OpenAI 모두 유료 구독자인데, 최근 ChatGPT가 크게 앞서고 있다는 결론을 내림
답변이 더 간결하고, 정보성도 뛰어나며, Claude 4.5도 막상 테스트해보니 큰 개선이 느껴지지 않음
- 나도 동일하게 세 가지 모두 구독 중임
  복잡한 상황 분석은 ChatGPT가 최고지만, 코드 작성만큼은 Claude가 더 잘함
  ChatGPT로 설계하고 문제 해결하면 그 답을 Claude나 Gemini에 넘겨 구현 진행
  Gemini는 둘 다 평균 이상임
- 전체적으로 ChatGPT가 좀 더 낫긴 하지만, Gemini도 AI Studio 활용과 설정 최적화, system prompt 조정 등을 통해 실사용컨텍스트에선 최고가 될 수 있음
  예시로 nano banana가 SOTA지만 Qwen-Edit은 덜 검열되어 실사용성이 더 높다고 느낌
  내가 운영하는 현지화 전자상거래 서비스에서는 nano banana는 여성 이미지 출력이 제한되어 못 쓰고, Qwen-Edit은 별 문제없이 활용 가능함
- 나도 Claude Max와 ChatGPT Codex 두 계정 모두 구독함
  예전에는 Claude 팬이었지만 최근엔 거의 codex만 사용함
  막히면 단순 작업만 Claude에 맡기거나 동시 테스트 해보는데, Sonnet/Opus의 Claude Code는 Codex보다 확실히 뒤떨어지게 나옴
- 혹시 codex를 지칭하는 게 맞는지 명확하게 해줬으면 함
- Grok은 어떤지, 따라오고 있는지 궁금함
아직 Claude는 써보지 못했는데, 나는 AI로 정치적 글의 교정 등 다양한 작업을 하고 있음
특정 민감한 주제(예: 오스트리아 12세 성폭행 사건)에서 ChatGPT가 guardrail 때문에 아예 멈추는 걸 경험함
실제 맥락과 상관없이 ‘sex + kid’ 단어만 감지해 무조건 차단하는 건 납득 불가임
워드프로세서가 주제를 검열하며 작성 자체를 막는 것과 같아서 도구로서의 역할을 다하지 못한다고 생각함
- 실제로 이런 주제에서는 합법적 대화 대비 허용할 수 없는 콘텐츠 비율이 너무 높기 때문에, 대부분 서비스업체 입장에선 차단이 합리적이라고 봄
  예를 들어, 내가 개발하는 친족동물 혈통 관리 앱에서 breeding/breeders 용어만 들어가도 차단되는 난감한 사례를 경험함
- "서비스"는 도구가 아니라는 의견임
  진짜 도구가 필요하다면 로컬에서 LLM 직접 구동하는 게 답임
- 결국 guardrail이 가장 적은 AI가 시장을 장악할 것이라고 생각함
  현재 frontier 모델 중에는 Grok이 가장 덜 제한적이지만 여전히 개선 여지 있음
- 비슷하게, ChatGPT/DallE로 딸을 위한 생일 쿠폰 이미지를 만들려고 했더니 전체 시간의 3/4이 각종 콘텐츠 정책 우회에 소요됨
- 내 소박한 경험으로도 Claude는 ‘논란적’ 주제에선 대화 자체를 훨씬 더 빠르고 강하게 차단함
System Initiative와 함께 빠른 테스트를 진행해봤음
인프라 503 에러가 수작업으론 2시간 이상 걸렸는데, 조합해보니 15분 만에 해결했음
다른 활용 사례는 블로그에 정리함
System Initiative 공식
사용 후기 블로그

답변달기