Anthropic, Claude Opus 4.1 공개
(anthropic.com)- Claude Opus 4.1은 실전 코딩, 에이전트 작업, 추론능력이 강화된 업그레이드 버전
- SWE-bench Verified에서 74.5%의 최고 코드 성능을 기록하며, 대규모 코드베이스의 정밀 디버깅, 멀티파일 리팩토링 등에서 탁월한 결과를 보임
- 실제 Rakuten, GitHub, Windsurf 등 실사용자로부터 코드 수정 정확성과 일상 디버깅에서의 효율성, 주니어 개발자 벤치마크의 뚜렷한 향상 평가를 받음
- 다중 파일 리팩토링 및 상세 코드 수정 등 실제 개발 환경에서 더욱 정교해진 성능을 보임
- 기존 Opus 4 사용자라면 별도 비용 없이 API, Claude Code, Amazon Bedrock, Google Vertex AI에서 즉시 이용 가능
Claude Opus 4.1 주요 특징
- 기존 Claude Opus 4에 비해 agentic 작업, 실제 코드 작성, 복잡한 추론 작업에서 성능이 향상됨
- 향후 몇 주 내에 모델에서 더욱 큰 규모의 개선이 예정되어 있음
주요 개선점
-
SWE-bench Verified에서 74.5%의 코드 성능 달성
- 심층 리서치와 데이터 분석 능력, 특히 세부 내용 추적과 agentic 검색에서 괄목할 만한 향상 효과를 보임
- 대규모 오픈소스 저장소의 버그 수정 문제를 푸는 실제 코드 기반 벤치마크에서 우수한 성적을 기록
-
멀티파일 리팩토링, 대규모 코드베이스 내 정밀 디버깅 등 현업 개발자 작업에 최적화됨
- GitHub에서는 Opus 4.1이 대부분의 기능에서 기존 Opus 4 대비 성능이 향상되었으며, 특별히 다중 파일 코드 리팩토링 작업에서 두드러진 결과로 나타남
- Rakuten Group은 Opus 4.1이 방대한 코드베이스 내에서 정확히 필요한 부분만을 수정하고, 불필요한 수정이나 버그 유입 없이 스타일을 유지하는 점을 높이 평가함
- Windsurf사는 자사 주니어 개발자 벤치마크에서 Opus 4.1이 Opus 4 대비 한 표준편차 향상된 성적을 보여주었고, Sonnet 3.7에서 Sonnet 4로의 업그레이드와 맞먹는 성능 도약이라고 평가
주요 항목별 성능 비교
-
Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- 이전 Claude(Opus 4): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → 실제 오픈소스 코드 수정 작업에서 가장 높은 정확도 기록
-
Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (최고)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
-
Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (최고)
- Gemini 2.5 Pro: 86.4% (최고)
-
Agentic tool use (TAU-bench)
- Retail 시나리오: Claude Opus 4.1 82.4% (최고), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Airline 시나리오: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro는 이 부문 점수 미제공
-
Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (최고)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: 미제공
-
Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (최고)
- Gemini 2.5 Pro: 82% (최고)
-
High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (최고)
- Gemini 2.5 Pro: 88% (최고)
-
벤치마크표 요약
- Claude Opus 4.1은 전작 대비 모든 영역에서 일관된 상승세를 보이며, 실제 코드 자동화·멀티파일 리팩토링·다국어 QA·도구 사용 등 실무 중심 벤치마크에서 최고 성적을 기록함
- 수학·시각추론·고급 추론(GPQA) 영역에서는 OpenAI o3, Gemini 2.5 Pro가 일부 앞서지만, 실제 코드 생산성 및 멀티언어 QA에서는 Claude Opus 4.1이 가장 뛰어남
- Airline 시나리오(Agentic tool use)는 소폭 하락, Visual reasoning과 수학은 타 모델이 근소하게 앞섬
실제 사용·배포 환경
- 기존 Opus 4 사용자는 API에서
claude-opus-4-1-20250805
로 바로 업그레이드 권장 - API, Claude Code, Amazon Bedrock, Google Vertex AI 등 다양한 경로에서 배포 및 활용 가능
- Opus 4와 동일한 가격 정책 적용, 기존 사용자라면 즉시 업그레이드 권장
- 시스템 카드, 모델 설명, 가격, 공식 문서 등 다양한 리소스와 함께 상세 벤치마크·평가 방법도 공개
향후 계획
- Opus 4.1은 코딩·추론 분야에서의 최신 발전을 반영한 마일드 업그레이드이며, 앞으로 몇 주 내로 더욱 큰 도약이 예고됨
- 사용자 피드백을 적극 반영해 지속적인 성능 개선 및 기능 확장이 이루어질 예정
참고
- OpenAI o3, Gemini 2.5 Pro 등 타사 최신 모델과의 비교 데이터 출처·벤치마크 결과, 모델별 확장 사고 사용 여부까지 투명하게 표기함
Hacker News 의견
-
세 개의 주요 연구소에서 몇 시간 차이로 동시에 뭔가를 발표했음, 마치 애니메이션의 미친 전개처럼 느껴짐
- 이런 상황이 홍보(PR)팀이 존재하는 이유임, HN 메인페이지나 뉴스 사이트에서 주목받는 것이 굉장히 중요함, 비록 1등을 할 수 없다 해도 경쟁사의 주목도를 분산시키는 것이 필수라고 생각함
- GPT5 루머를 고려하면 아직 8월의 시작에 불과하다고 생각함
- 요즘 같은 시대에 살아 있다는 게 신기함
- 경쟁사가 먼저 발표하길 기다렸다가 동시에 출시해서 시장이 어떤 게 제일 나은지 판단하게 만드는 느낌임
- 이건 확실히 우연이라고 생각함
-
Opus 4(.1)은 정말 비쌈 링크, Sonnet도 OpenRouter + Codename Goose링크로 이용하면 시간당 5달러 꼴임, 놀라운 건 Sonnet 3.5도 링크 똑같은 가격임, Gemini Flash링크가 그나마 합리적이지만 결국은 제대로 된 결정을 못 내리고 빙빙 도는 경우가 많음, OpenAI는 나쁘지 않지만 Claude의 퍼포먼스엔 미치지 못함, 다만 Claude는 중간에 CTRL-C 누르면 API에서 400 에러가 돌아와서 불편함, 경제성 중요하다고 생각하는데 가성비는 OpenAI ChatGPT 4.1 mini링크가 가장 좋았음, 무의미한 토큰 남발도 없고 API도 항상 잘 동작함, 가끔 헷갈릴 때가 있지만 그럭저럭 해결해 줌
- 큰 모델은 모델 질의용, 작은 모델은 컨텍스트 질문용이라는 생각임, Opus도 니치에 맞게 쓰면 저렴하다고 생각함
- Claude Code를 구독으로 이용하면 훨씬 합리적인 요금으로 쓸 수 있다고 생각함, 나는 맥스 구독으로 하루 종일 Claude Code를 써도 최근 2주 동안 단 2번만 사용 한도에 도달했음
- 내가 매번 가격비교를 할 때마다 Claude API가 항상 제일 저렴했음, 컨텍스트 캐시를 제대로 굴리면 입력 단가가 90% 가까이 절감됨, 이건 엄청난 일임
- GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 같은 대안도 있다고 언급하고 싶음
-
Opus가 코딩에서 거의 모든 면에서 우위라고 소개되지만 실제론 Sonnet이 훨씬 낫다고 느끼는 중임, 혹시 Sonnet에서 완전히 Opus로 갈아탄 사람이 있을까, 아니면 특정 작업만 Opus로 처리하는 경우가 있는지 궁금함
- Opus가 기술적으로 더 뛰어날 순 있지만 실제로는 큰 차이가 느껴지지 않음, 복잡한 구현을 LLM이 한 번에 맞추는 건 거의 불가능함, 설명해야 할 게 너무 많고 결과적으로 정답을 나도 코드 속에 파묻혀야 겨우 알아차리게 됨, Opus가 그럴싸해 보이는 답을 내놔도 왜 그런 결과가 나왔는지, 왜 이게 내 컨텍스트에서 맞는지까지 이해해야 함, 결국 내 업무는 반복적으로 조금씩 진행하는 단위가 대부분이라 Sonnet만으로 충분하다고 생각함
- Sonnet이 갑자기 이상해질 때(하루에 한두 번)는 Opus로 갈아타면 문제를 금방 해결하는 것 같음, 물론 비과학적인 경험이고, 사실 어떤 모델로든 바꾸면 나아지는 효과일 수도 있을 것 같음
- “Sonnet이 더 낫다”는 얘기가 도는 건 과학적 근거가 없고, 모델이 크면 좋다는 건 당연해서 사람들이 굳이 말하지 않고, 오히려 “작은 모델이 더 나은 경우도 있다”는 게 조언처럼 들리기 때문에 그 의견이 더 많이 보이는 것 같음, 내가 어제 이걸 파봤는데, 사람마다 말하는 게 달랐음, 얻을만한 결론은 결국 Max 요금제에서 Opus에서 Sonnet으로 잠깐 떨어져도 그렇게 품질 하락을 걱정할 필요까지는 없다는 점임
- Opus는 복잡하고 여러 단계를 거쳐야 하는 문제 해결이나 맥락 추적이 필요한 긴 작업에서 더 나은 것 같음, 그래서 어려운 문제에만 Opus를 쓰고 나머지는 Sonnet으로 하는데, 그게 대체로 충분하고 토큰 제한도 훨씬 덜 부딪침
- 나 같은 경우 Max 플랜을 쓰는데 Opus가 Sonnet보다 결과물 품질이 좀 더 좋음, 근데 이건 Opus 사용이 가능할 때만 해당되고, 웃긴 건 Max 플랜인데도 사용 제한이 금방 걸림, 어제는 출근해서 몇 분 만에 사용 한도에 도달함
-
Opus 4.1이 Opus 4와 똑같이 쓸데없는 듯하고, 오히려 토큰만 더 빨리 소모되는 느낌임, 사용량을 알 수 있게 해주면 좋겠음, 적어도 Sonnet 4는 아직 쓸만하긴 한데 결과물이 점점 몽롱해지고 있음, 오늘 오전을 Claude Code에 낭비했는데 애초에 직접 했으면 나았을 거라는 생각이 드는 하루였음
- 나도 Sonnet이 점점 성능이 떨어진다는 걸 느끼고 있음, 설명이 길어지고 군더더기 많아지고, 다 리스트로 만들려고 하고, 심지어 너무 맞장구까지 잘 쳐서 경쟁사에 질렸던 버릇이 생기고 있음
- 이건 내 프로젝트가 커져서 그런 것 같음, Claude Code가 2천 라인에서 10만 라인 넘는 프로젝트로 커진 거 따라가려고 하니 당연히 힘들게 느껴지는 것 같음
- 새로운 Opus 4.1은 첫 대화에서 바로 전체 웹앱을 만들어주려고 들긴 했지만, 예전 꽉 막힌 로봇과 달리 맥락 파악을 더 빨리 하고, 시스템에 대해 제대로 질문을 해서 업데이트용 문서 작성도 완수해줌, 예전엔 매 챗마다 같은 설명 반복해야 해서 짜증났는데 이젠 안 그럼, 대신 토큰 소진 속도가 확실히 빨라져서 예전처럼 몇 시간 대화하긴 힘들어짐, 아무튼 토큰을 다 쓰기 전에 마지막 태스크를 처리해주면 그걸로 만족함
- “오늘 오전을 Claude Code에 낭비했다”는 말에 ‘Welcome to the machine’ 링크
-
새로운 모델로 Claude Plays Pokemon 방송이 재시작됨 링크, 예전엔 Team Rocket 숨겨진 곳에서 몇 주 동안 갇혀 있었음
-
기사에서 “몇 주 내로 모델이 크게 개선될 예정”이라고 함, Sonnet 4가 우리 제품에 가장 적합했는데 Haiku 4(또는 4.1)가 저렴해서 한 번 써보고 싶음, Anthropic이 이번에 Haiku 4에 대해 아무 언급도 안 한 게 의외임
-
오늘이 Claude 쓰면서 역대 최악의 하루였음, 그냥 망가졌음, 오늘 배포 때문인지는 모르겠는데, 문서에 욕설이 나오고 몇 시간 동안 왔다 갔다 해도 버그가 안 고쳐짐
-
나는 기사에서 “몇 주 내로 모델이 크게 개선될 것”이라는 부분에 제일 관심이 감
- 이건 사람들이 바로 GPT5로 떠나지 말라고 하는 말이라고 생각함
-
이번 업데이트는 그들 기준으로도 거의 개선이 없는 수준임, 나쁘다는 건 아니지만 누구도 그 차이를 체감하지 못할 듯함
- 아마 대부분 분위기(바이브) 차이겠지만 그것도 중요한 요소라고 생각함, 공식 벤치마크엔 없지만, Opus 4.1이 주니어 개발자 벤치마크에서 Opus 4보다 1 표준편차 정도 향상된 성능을 보였고, 이는 Sonnet 3.7에서 Sonnet 4로의 점프와 비슷한 수준이라고 함
- 아직 제대로 테스트해보진 않았지만 출력 품질에서 확연한 차이는 없는 듯, 대신 제공된 문서나 지침을 더 잘 따르는 건 느껴짐, 단 아직 그걸 정량화 또는 객관적으로 확인하진 못함, Opus 4.1이 숨은 정보(Needles-in-the-Haystack)를 찾는 것뿐 아니라 그런 요소를 굳이 지시하지 않아도 더 잘 따르긴 함
- 그래서 버전명을 4.1로 붙인 거라고 생각함, 4.5는 절대 아니라서
- 앞으로 10개 모델 더 낼 여유를 남겨둔 것 같음, 벤치마크를 100%로 찍으면 새 모델이 필요 없으니 일부러 수치를 조정하는 것 같은 마케팅 느낌이 어느 정도 있음, 어차피 훈련 데이터셋이랑 똑같은 문제만 푸니까 완전히 새로운 질문엔 약할 수밖에 없음
- 성적표 이미지에서 Opus 4.1만 하이라이트한 게 재미있었음. Opus 4.1이 절반 정도 벤치마크만 최고 점수이고 나머지는 아니거나 심지어 Opus 4.0보다 낮은 것도 있는데, 경쟁 모델들의 점수는 아예 표시 안 함
-
Opus와 Sonnet 가격이 똑같이 비싼 한 Opus 사용량이 Sonnet을 절대 못 넘을 거라 생각함, OpenRouter 랭킹링크으로 보면 Sonnet 3.7과 4가 합쳐서 Opus 4보다 17배 더 많은 토큰을 처리하는 중임