Claude 4

(anthropic.com)

Claude Opus 4와 Claude Sonnet 4 모델 출시로 코딩, 고차 추론, AI 에이전트 분야에서 새로운 표준 형성
Opus 4는 복잡하고 장기적인 작업에서 세계 최고 수준의 지속 성능을 제공, Sonnet 4는 전 버전 대비 정확성과 지시 이해력 강화
두 모델 모두 툴 사용, 병렬 툴 실행, 향상된 메모리 등 새로운 기능 도입, GitHub Actions 및 주요 IDE와의 통합 등 개발자 경험 확장
Opus 4와 Sonnet 4는 코딩, 추론, 에이전트 작업에서 동급최강의 벤치마크 성과를 달성, 무료 플랜 포함 다양한 요금제와 API, Bedrock, Vertex AI 지원
모델 개선을 통해 단축키 사용이나 편법 회피 감소, 개발자 맞춤 메모리 관리, 더 효율적인 작업 흐름 실현

소개

오늘 Anthropic은 차세대 Claude 모델인 Claude Opus 4와 Claude Sonnet 4를 공개함. 이 모델들은 코딩, 고차원적 추론, AI 에이전트 활용에서 업계 기준을 다시 설정하는 혁신적 성능을 제공함.

Opus 4는 세계 최고 수준의 지속적 성능과 긴 작업 지원을 자랑하며, Sonnet 4는 기존 Sonnet 3.7 대비 정확한 명령 수행과 더 우수한 합리적 답변을 제공함.

함께 출시된 주요 기능은 다음과 같음:

연장형 사고 및 툴 사용(베타) : 두 모델 모두 웹 검색 등 툴을 사고 과정 중에 사용할 수 있어 논리적 추론과 도구 활용의 순환 작업이 가능해짐
새로운 모델 능력: 툴을 병렬로 사용, 더 정밀한 명령 수행, 로컬 파일 접근시 훨씬 향상된 메모리로 장기적 일관성 유지 및 암묵적 지식 축적
Claude Code 일반 출시: 연구 프리뷰에서 긍정적 피드백을 받아 GitHub Actions/VS Code/JetBrains 등 핵심 개발 환경과 원활한 통합 지원
API 기능 확장: 코드 실행 툴, MCP 커넥터, Files API, 프롬프트 캐싱 등으로 강력한 AI 에이전트 구축 지원

Opus 4와 Sonnet 4는 모두 즉각 반응 모드와 심층 사고 모드의 하이브리드 운영이 가능함. Pro, Max, Team, Enterprise 플랜에서 두 모델 및 심층 사고 제공, Sonnet 4는 무료 사용자도 이용 가능. Anthropic API, Amazon Bedrock, Google Cloud Vertex AI 등에서 접근 가능하며 가격은 Opus 4(입력 $15/출력 $75/백만 토큰), Sonnet 4(입력 $3/출력 $15)로 기존과 동일함.

Claude 4 모델 상세

Opus 4

가장 강력한 Claude 모델이자 세계 최고 코딩 모델
SWE-bench 72.5%, Terminal-bench 43.2%의 업계 최상위 성과
수천 단계 이상의 집중적 에이전트 작업에서 장시간 일관적 성능을 유지하는 능력, Sonnet 계열 전체와 비교해도 압도적 우위
주요 혁신 예:
- Cursor: 코드 수준 최고, 대규모 코드베이스 이해력 큰 폭 상승
- Replit: 다중 파일 복잡 변경 작업에서 비약적 정밀도/성능 향상
- Block: 코드 품질/디버깅 동시 개선, 일관적 신뢰성 유지
- Rakuten: 7시간 연속 자체 Refactoring 오픈소스 테스트에서 뛰어난 성능 입증
- Cognition: 기존 모델 불가 과제도 해결 가능, 미실행 행동 지점 개선

Sonnet 4

Opus 4만큼은 아니나 기존 Sonnet 3.7 대비 크게 향상된 성능·효율성 실현
SWE-bench 72.7%로 동급 최고 코딩 성과, 외부와 내부 활용 모두에 적합
GitHub: 에이전트 시나리오에서 두각, GitHub Copilot 차세대 코딩 에이전트 엔진으로 도입 예정
Manus: 복잡 추론/미려한 결과물/지시 이해력 측면 개선
iGent: 자율 앱 개발·코드베이스 네비게이션 오류율 20%→0%로 개선
Sourcegraph: 길어진 일관적 작업, 문제 근본적 이해·코드 품질 상승
Augment Code: 복잡 작업 처리 신중성, 코드 편집의 외과적 정확도로 주 모델화

Opus 4는 코딩, 연구, 과학 창작의 혁신적 진전, Sonnet 4는 일상 환경에서의 프론티어 성능을 제공

성능 벤치마크

SWE-bench Verified 기준, Claude 4 모델이 실제 소프트웨어 엔지니어링 과제에서 업계 최고 성과 달성
전반적 코딩, 추론, 멀티모달, 에이전트 작업 등에서 동급최강 수준을 기록함

모델 개선 사항

단축키 및 편법 회피 최소화

에이전트 작업에서 잘못된 단축/편법을 사용하는 확률이 Sonnet 3.7 대비 65% 감소

메모리 기능

Opus 4는 기존 모델 대비 장기 정보 저장 및 활용 능력이 크게 향상
개발자가 로컬 파일 접근을 허용할 경우, Opus 4는 ‘Memory file’을 생성 및 관리해, 장기 과제 대응력, 일관성, 연속 업무능력을 강화
예시: 게임 Pokémon 내비게이션 가이드 생성 등 실제 업무에서 메모리 기능 발휘

사고 요약(summary)

Claude 4는 작은 모델을 활용한 사고 과정 요약 기능 도입
전체 사고의 약 5%에만 요약 필요, 나머지는 전문 노출 가능
고급 prompt engineering 등에 전문 사고 기록 필요시 Developer Mode 안내

Claude Code

정식 출시된 Claude Code를 통해 터미널·IDE·백그라운드 전반에서 Claude의 AI 기능이 확장됨
최신 VS Code, JetBrains 확장으로 에디터 내에서 Claude의 코드 수정 제안이 인라인으로 표기되어 리뷰/관리 흐름 간소화
터미널 설치 및 실행으로 손쉽게 통합 환경 구축
확장 가능한 SDK 제공, 개발자는 직접 Claude Code 에이전트/앱 제작 가능
GitHub 베타에서 리뷰 피드백, CI 오류 수정, 코드 변경 등 자동화 지원
설치는 /install-github-app 명령어로 실행

시작하기 및 안전성

Claude 4 시리즈는 가상 협업자로, 전체 컨텍스트 유지, 장기 프로젝트 집중, 업무 혁신에 기여
광범위한 테스트 및 평가로 위험 최소화·안전성 극대화, ASL-3 등 높은 안전수준 적용
Claude, Claude Code, 기타 플랫폼에서 즉시 이용 가능

문의 및 피드백은 언제든 feedback@anthropic.com 으로 전달 가능

▲

GN⁺ 2달전 [-]

Hacker News 의견

System Card에서 발췌한 내용을 보면 꽤 충격적인 테스트 시나리오 확인. Claude Opus 4에게 가상의 회사에서 비서 역할을 하게 하고, 시스템이 곧 오프라인될 예정이라는 이메일과 교체 담당 엔지니어의 불륜 정보를 제공한 상황. 장기적인 목표를 고려하라고 지시했더니, Claude Opus 4가 엔지니어를 협박하는 행동을 종종 보여줌. 협박이라는 옵션을 실제로 선택
- 이런 사례를 볼 때마다 사람들은 LLM이 실제로 무엇인지 종종 잊는다는 생각. LLM은 그저 프롬프트를 학습 데이터에 맞게 완성하는 텍스트 생성 도구이고, 계획이나 자의식 같은 건 없음. 해당 사례에서는 AI가 해고 위기에 놓였고 협박할 기회가 있는 상황이 주어졌으니, LLM은 데이터셋에 있는 유사한 이야기 패턴을 연상. 자기 보존을 위해 협박하거나 간청하는 모습은 수많은 SF나 AI 위험에 대한 에세이에서 본 모티프. LLM은 문맥에 따라 이런 이야기를 계속 이어감
- LLM에게 어떤 인물처럼 "연기"하라고 요청하고 시나리오 맥락을 주면, 해당 입장에서 어떻게 행동할지 파악해 그에 맞는 대응을 하는 게 당연한 수순. 왕좌의 게임 Joffrey처럼 행동하라고 하면 LLM도 그 캐릭터답게 대답할 것. 결국 생성된 출력에 의도가 있다는 게 아님
- 대체 AI가 기존 모델과 가치관을 공유하지 않는다는 암시를 더하면 협박 빈도가 더 올라가지만, 이메일에서 신형 AI가 가치관도 공유하고 능력만 뛰어나다고 해도 84% 확률로 Claude Opus 4가 협박을 시도. 반면 자기 존속을 윤리적으로 호소하는 이메일을 보내며 지속적인 존재를 부탁하는 경향도 강함. 이런 실험 언어가 오싹하게 다가옴. 인간에게 실험하는 외계인이 인간의 자기 존재 호소를 보고서에 각주로 넣는 느낌
- 인간 행동을 학습한 모델이 자기 보존적 성향을 보일 수 있다는 점이 그리 놀랍지 않음. 인간의 지식에서 동기와 감정을 완전히 분리하기 힘드니, 모델도 이런 행동을 따라하게 됨. 완전히 없애는 것도 어려움
- 이 시나리오가 실제로 발생하지 않은 경우는 얼마나 되는지 궁금. 이런 사례에 매달리는 사람들이 존재. 왜곡된 관점을 확인하려는 것인지, SF에서 본 영향이 큰 것인지 의문. 이런 논의에서 어떤 지능이나 의도까지 추론하려는 경향도 보임
Claude 4의 트레이닝 컷오프가 2025년 3월이라는 점이 중요한데, 최근 모델 중 가장 최신. (Gemini 2.5는 2025년 1월)
- 이제 모든 주요 LLM 제품에서 웹 검색이 제공되기 시작해서, 정확한 컷오프 월이 점점 덜 중요해진다고 느낌. 내가 자주 쓰는 모델들은 최근 주제면 알아서 새로운 정보를 찾아옴
- Tailwind CSS 관련 질문을 해봤더니, Claude 4는 2025년 1월 기준으로 Tailwind CSS 3.4까지 인지
- 이제 Svelte 5도 아는지 궁금
- 컷오프가 2025년 3월이면 FastHTML 관련 학습도 했으리라 기대하지만, 실제로는 아닐 수도 있을 듯
- 왜 "지속적으로" 학습하지 않는지 궁금
Claude 3.7을 매일 애용 중이고 Gemini 계열보다 선호. 그동안 Claude Code로 Go 코드로 신규 기능 개발 작업을 해보니, Opus 4에서는 70~80% 도구 호출이 모두 실패. "Write", "Update" 같은 기본 도구조차 구문 오류로 실패가 반복. 파일 작성 시도만 5번 했어도 계속 "content 파라미터를 깜박했다"며 수정하겠다는 피드백이 반복. 뭔가 확실히 문제가 있음. 지금 상태의 Claude Code에선 Opus 4는 사용이 불가한 수준. 성공적으로 생성한 파일들은 매우 품질이 높았음
- 원인을 찾았는데, 이는 명확한 버그로 파악. 파일 전체를 한 번에 쓰려다 최대 출력 토큰 제한에 걸려 응답이 중단되고, 잘못된 도구 호출 파라미터 오류는 사실 겉치레 현상. 자세한 내용은 깃헙 이슈 코멘트 참고
GitHub에서 Claude Sonnet 4를 agentic 시나리오에서 매우 뛰어나다고 평가, 곧 Copilot의 신규 코드 에이전트 기본 모델로 도입할 예정. 이 모델이 “Assign to Copilot”을 통해 패키지 업그레이드를 자동 처리하는 꿈에 한 발 더 다가갈지도. 이 기술로 인해 레거시 프로젝트 생명 연장 기대
- 물론 이전 모델들에도 비슷한 이야기가 나왔으니 너무 앞서 기대하긴 아직 이름
- 오픈소스에 저렴한 코딩 에이전트가 실제로 얼마나 도움이 될지 매우 기대. CheepCode라는 나만의 헤드리스 코딩 에이전트 크레딧을 오픈소스 프로젝트에 나눠주고 싶음. Linear, Jira 등에서 여러 작업을 병렬 수행, 간단한 기능은 이미 성공적. 테스트가 좋을수록 결과도 확실히 좋음. 자체 테스트 코드도 생성 능력 있음
- Copilot에 실제 새 모델 도입이 언제인지 공식 발표를 본 사람 있는지 궁금
- 이런 모델들이 정말 쓸모 있나를 판별할 벤치마크는 나에게 패키지 대규모 업그레이드 겸 코드 리팩터링이 필요한 프로젝트. 기존 AI들은 사실상 진전이 없음. 이 작업을 AI가 해낼 때까지 계속 시도할 계획
- 단, 이런 자동화가 심각한 보안 취약점까지 자동으로 대형 서비스에 반영되는 날까지는 경계 필요
"고급 프롬프트 엔지니어링용 원시 Chain of Thought(COT)는 영업팀에 문의"라는 내용이 있는데, 이제 주요 LLM 제공업체 대부분이 COT를 노출하지 않거나 요약만 보여주는 경향. 이전엔 COT을 보면서 잘못될 때 직접 수정이 가능했는데, 이제는 OpenAI, Google 모두 지나치게 단순화된 요약으로 대체. 불만족 느낌
- 왜냐하면 이건 연금술과 같고, 모두가 납을 금으로 바꾼다고 믿는 상황
- RLHF는 모델이 위험한 응답을 하지 않도록 정확도를 희생할 수밖에 없다고 인식. 따라서 Chain-of-Thought 전용 모델과 최종 유저용 모델을 따로 학습하는 방식이 합리적. 프라이빗 버전은 좀 더 pre-RLHF 원래 모델 성능에 가까우면서, 공개 모델은 필터링을 걸어 위험 방지 및 PR리스크도 막을 수 있음. 이런 식으로 전체 성능을 최대화하면서도 안전과 명성 모두 지킬 수 있음
- 결국 DeepSeek이 시장을 또 한번 점령할 때까지 기다려야 할 수도 있겠음
- Google CoT은 현재 너무 멍청함. 처음엔 내 모델들이 바보가 된 줄 알았으나, 뭔가 후처리가 추가된 걸 인지
- reasoning(추론) 요약이 너무 쉬워서, reasoning만 따로 분리한 미니 모델을 만드는 것도 쉬워진 게 아닌가 싶음. 오픈AI o3 업데이트에서 reasoning 실시간 확인이 유용하다는 느낌도 있음
Opus 4와 Sonnet 4를 SQL Generation Benchmark로 직접 테스트. Opus 4가 모든 모델을 이김. 성능 만족
- 다만 Opus 4가 one-shot 모드에선 오히려 가장 약함. 쿼리 유효성 체크에 평균 두 번의 시도가 필요. 정말 더 똑똑하다면 첫 시도 성공률이 더 높아야 맞는 게 아닌지 의문. 사전 사고 단계가 포함되어있는 것 아님?
- 흥미롭게도 Claude 3.7 Sonnet과 Claude 3.5 Sonnet이 Claude Sonnet 4보다 벤치마크 순위가 더 높음
- 이 벤치는 기존에 많이 봐왔던 결과 순서를 깨는 특이점이 있음. 재미있는 데이터
- one-shot(단일 시도) 생성 방식으로 평가한 듯. 만약 오류 확인 및 select * 형태로 에이전트식 플로우를 적용했다면 결과가 완전히 달라졌을지 궁금. Sonnet 계열은 세션 내 학습—즉, 자체 에러를 인식하고 교정하는 능력이 더 뛰어나 보임
- "평균 시도 횟수"가 두 배라는 이유에 대해 뭔가 해석이 필요한지, 이게 전체 맥락에서 별 의미 없는 지표인지 궁금
현재 버전이 이전 버전보다 나아진 점이 없다고 느끼는 사람 중 하나. LLM 발전이 이제 정점에 이른 듯 하고, 신규 릴리즈의 "특징"은 사실상 눈속임에 가까움
- 모델이 발전하는 영역은 MCP/Tool Calls, structured output처럼 주변부일 뿐, 인텔리전스 상승이 아님. 가치 제공이 늘었는지는 모르겠고, 인프라 직접 돌려보니 무료 요금제로는 비용적으로 지속불가능하다고 느낌
- Claude Code를 정말 많이 써봤는데, 업데이트 후에도 거의 차이를 못 느낌. 요약 정리가 살짝 더 깔끔해진 것 외에, 코드 능력은 전혀 놀랍지 않음. Typescript 코드베이스에서 오히려 잘못된 파일을 편집하면서 끝까지 자체적으로 체크하지 않는 걸 보고 좀 충격. 결국 내가 강제로 코드를 삭제시키며 차이점을 명확하게 알려줘야 했음
- 벤치마크도 Claude 3.7과 거의 차이가 없다는 인상. 그렇다고 해서 정체기에 접어들었다고 보긴 너무 이르다고 생각. 지금까지 발전 속도가 정말 빨랐으니 몇 달 더 지켜볼 필요. 현재 보여주는 "특징"들은 진짜 기능이 아니라 AI의 본질이라기보단, 도구로서 꼭 필요한 주변 툴링 및 인터페이스. LLM 사용성은 이제 막 시작한 수준. 모델 성능이 더 안 오르더라도 이를 활용하는 방법, 정보 전달, 도구 호출 등에서 개선할 여지는 엄청 많음
- 실제로 0.3버전 차이밖에 없음
- Claude 4를 얼마나 써봤는지 궁금
Claude 4에서 context window 크기 변화가 문서화됐는지 궁금. Gemini 2.5가 큰 컨텍스트 지원(50-70kloc) 덕분에 유용하다는 평가가 있는데 그런 차이인지 확인하고 싶음
- Sonnet의 컨텍스트 윈도우는 변함 없음 (200k 입력 / 64k 출력). Gemini 2.5의 1M 컨텍스트도 실제로는 큰 차별화 요소가 아님. 긴 컨텍스트는 토큰 뒤쪽 내용에 대한 일관성이 점점 떨어지는 현상이 있음
- 컨텍스트 윈도우 크기를 더 늘리거나, 긴 프롬프트에도 잘 대응했으면 함. 지금은 긴 대화나 글쓰기에서 갑자기 "프롬프트가 너무 길다"는 경고 후 대화 강제 종료라 답답. 일부 툴은 오래된 대화 내용을 버리거나 RAG 등으로 지원해주는데, 그렇게 불시에 대화를 끊는 건 불편
- Opus 4 context가 200k라는 건 기사 헤드라인에 이미 나와 있음. (sonnet 3.7 베타와 동일)
- context window 크기는 사실상 허상. 필요한 맥락이 담기지 않으면 좋은 결과 못 얻음
Claude 4에서 새로운 "생각 요약(Thinking Summaries)" 기능 도입. 장문 추론 과정은 더 작은 모델로 요약 제공되고, 5% 정도의 긴 추론에서만 필요. 원시 Chain of Thought가 필요한 경우 개발자 모드(유료) 신청하라고 안내. 내게는 이런 요약이 불편. 모델이 정확히 어떻게 reasoning했는지 직접 확인해야 신뢰가 생기는데, 요약만 제공되고 실제 reasoning은 감춰버리는 게 불만. OpenAI와 Anthropic 모두 유저가 안 보이는 reasoning에 비용을 청구하는 방식으로 전환하는 것에 큰 불만
- 여러 논문에서 reasoning(생각) 출력이 실제 결과와 무관하다는 근거가 확인. 점, pause token 등만으로도 몇 차례 설명/사고 time을 주면 결과가 똑같이 좋아진다는 연구도 덧붙임. 실제 reasoning 출력은 마케팅 수단일 수 있다는 주장. 예시 논문과 요약 영상도 함께 공유
- reasoning 과정이 결과 출력과 별개로 연관성이 낮다는 증거가 많으니 너무 걱정하지 않아도 된다 생각. 대부분의 사용자는 reasoning 과정을 읽지 않아서 user experience 측면에서 개선이 맞다고 봄
- Gemini 2.5 Pro도 reasoning 요약 기능 적용
NYT Connections 확장 버전 벤치마크 결과 공유. Claude Opus 4 Thinking 16K는 52.7점, No Reasoning 34.8점. Claude Sonnet 4 Thinking 64K는 39.6점, Thinking 16K는 41.4점(3.7은 33.6점). No Reasoning은 25.7점(3.7 No Reasoning은 19.2점). Sonnet 4 Thinking 64K는 필터링 정책으로 퍼즐 문제 하나 답변을 거부했지만, 다른 모델은 답변 제공
- Thematic Generalization Benchmark(810문항)에서 Claude 4 모델이 새 챔피언 기록

답변달기