Anthropic, Claude Opus 4.1 공개

(anthropic.com)

7P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Claude Opus 4.1은 실전 코딩, 에이전트 작업, 추론능력이 강화된 업그레이드 버전
SWE-bench Verified에서 74.5%의 최고 코드 성능을 기록하며, 대규모 코드베이스의 정밀 디버깅, 멀티파일 리팩토링 등에서 탁월한 결과를 보임
실제 Rakuten, GitHub, Windsurf 등 실사용자로부터 코드 수정 정확성과 일상 디버깅에서의 효율성, 주니어 개발자 벤치마크의 뚜렷한 향상 평가를 받음
다중 파일 리팩토링 및 상세 코드 수정 등 실제 개발 환경에서 더욱 정교해진 성능을 보임
기존 Opus 4 사용자라면 별도 비용 없이 API, Claude Code, Amazon Bedrock, Google Vertex AI에서 즉시 이용 가능

Claude Opus 4.1 주요 특징

기존 Claude Opus 4에 비해 agentic 작업, 실제 코드 작성, 복잡한 추론 작업에서 성능이 향상됨
향후 몇 주 내에 모델에서 더욱 큰 규모의 개선이 예정되어 있음

주요 개선점

SWE-bench Verified에서 74.5%의 코드 성능 달성
- 심층 리서치와 데이터 분석 능력, 특히 세부 내용 추적과 agentic 검색에서 괄목할 만한 향상 효과를 보임
- 대규모 오픈소스 저장소의 버그 수정 문제를 푸는 실제 코드 기반 벤치마크에서 우수한 성적을 기록
멀티파일 리팩토링, 대규모 코드베이스 내 정밀 디버깅 등 현업 개발자 작업에 최적화됨
- GitHub에서는 Opus 4.1이 대부분의 기능에서 기존 Opus 4 대비 성능이 향상되었으며, 특별히 다중 파일 코드 리팩토링 작업에서 두드러진 결과로 나타남
- Rakuten Group은 Opus 4.1이 방대한 코드베이스 내에서 정확히 필요한 부분만을 수정하고, 불필요한 수정이나 버그 유입 없이 스타일을 유지하는 점을 높이 평가함
- Windsurf사는 자사 주니어 개발자 벤치마크에서 Opus 4.1이 Opus 4 대비 한 표준편차 향상된 성적을 보여주었고, Sonnet 3.7에서 Sonnet 4로의 업그레이드와 맞먹는 성능 도약이라고 평가

주요 항목별 성능 비교

Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- 이전 Claude(Opus 4): 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → 실제 오픈소스 코드 수정 작업에서 가장 높은 정확도 기록
Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (최고)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (최고)
- Gemini 2.5 Pro: 86.4% (최고)
Agentic tool use (TAU-bench)
- Retail 시나리오: Claude Opus 4.1 82.4% (최고), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Airline 시나리오: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro는 이 부문 점수 미제공
Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (최고)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: 미제공
Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (최고)
- Gemini 2.5 Pro: 82% (최고)
High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (최고)
- Gemini 2.5 Pro: 88% (최고)
벤치마크표 요약
- Claude Opus 4.1은 전작 대비 모든 영역에서 일관된 상승세를 보이며, 실제 코드 자동화·멀티파일 리팩토링·다국어 QA·도구 사용 등 실무 중심 벤치마크에서 최고 성적을 기록함
- 수학·시각추론·고급 추론(GPQA) 영역에서는 OpenAI o3, Gemini 2.5 Pro가 일부 앞서지만, 실제 코드 생산성 및 멀티언어 QA에서는 Claude Opus 4.1이 가장 뛰어남
- Airline 시나리오(Agentic tool use)는 소폭 하락, Visual reasoning과 수학은 타 모델이 근소하게 앞섬

실제 사용·배포 환경

기존 Opus 4 사용자는 API에서 claude-opus-4-1-20250805로 바로 업그레이드 권장
API, Claude Code, Amazon Bedrock, Google Vertex AI 등 다양한 경로에서 배포 및 활용 가능
Opus 4와 동일한 가격 정책 적용, 기존 사용자라면 즉시 업그레이드 권장
시스템 카드, 모델 설명, 가격, 공식 문서 등 다양한 리소스와 함께 상세 벤치마크·평가 방법도 공개

향후 계획

Opus 4.1은 코딩·추론 분야에서의 최신 발전을 반영한 마일드 업그레이드이며, 앞으로 몇 주 내로 더욱 큰 도약이 예고됨
사용자 피드백을 적극 반영해 지속적인 성능 개선 및 기능 확장이 이루어질 예정

참고

OpenAI o3, Gemini 2.5 Pro 등 타사 최신 모델과의 비교 데이터 출처·벤치마크 결과, 모델별 확장 사고 사용 여부까지 투명하게 표기함

▲

GN⁺ 4달전 [-]

Hacker News 의견

세 개의 주요 연구소에서 몇 시간 차이로 동시에 뭔가를 발표했음, 마치 애니메이션의 미친 전개처럼 느껴짐
- 이런 상황이 홍보(PR)팀이 존재하는 이유임, HN 메인페이지나 뉴스 사이트에서 주목받는 것이 굉장히 중요함, 비록 1등을 할 수 없다 해도 경쟁사의 주목도를 분산시키는 것이 필수라고 생각함
- GPT5 루머를 고려하면 아직 8월의 시작에 불과하다고 생각함
- 요즘 같은 시대에 살아 있다는 게 신기함
- 경쟁사가 먼저 발표하길 기다렸다가 동시에 출시해서 시장이 어떤 게 제일 나은지 판단하게 만드는 느낌임
- 이건 확실히 우연이라고 생각함
Opus 4(.1)은 정말 비쌈 링크, Sonnet도 OpenRouter + Codename Goose링크로 이용하면 시간당 5달러 꼴임, 놀라운 건 Sonnet 3.5도 링크 똑같은 가격임, Gemini Flash링크가 그나마 합리적이지만 결국은 제대로 된 결정을 못 내리고 빙빙 도는 경우가 많음, OpenAI는 나쁘지 않지만 Claude의 퍼포먼스엔 미치지 못함, 다만 Claude는 중간에 CTRL-C 누르면 API에서 400 에러가 돌아와서 불편함, 경제성 중요하다고 생각하는데 가성비는 OpenAI ChatGPT 4.1 mini링크가 가장 좋았음, 무의미한 토큰 남발도 없고 API도 항상 잘 동작함, 가끔 헷갈릴 때가 있지만 그럭저럭 해결해 줌
- 큰 모델은 모델 질의용, 작은 모델은 컨텍스트 질문용이라는 생각임, Opus도 니치에 맞게 쓰면 저렴하다고 생각함
- Claude Code를 구독으로 이용하면 훨씬 합리적인 요금으로 쓸 수 있다고 생각함, 나는 맥스 구독으로 하루 종일 Claude Code를 써도 최근 2주 동안 단 2번만 사용 한도에 도달했음
- 내가 매번 가격비교를 할 때마다 Claude API가 항상 제일 저렴했음, 컨텍스트 캐시를 제대로 굴리면 입력 단가가 90% 가까이 절감됨, 이건 엄청난 일임
- GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 같은 대안도 있다고 언급하고 싶음
Opus가 코딩에서 거의 모든 면에서 우위라고 소개되지만 실제론 Sonnet이 훨씬 낫다고 느끼는 중임, 혹시 Sonnet에서 완전히 Opus로 갈아탄 사람이 있을까, 아니면 특정 작업만 Opus로 처리하는 경우가 있는지 궁금함
- Opus가 기술적으로 더 뛰어날 순 있지만 실제로는 큰 차이가 느껴지지 않음, 복잡한 구현을 LLM이 한 번에 맞추는 건 거의 불가능함, 설명해야 할 게 너무 많고 결과적으로 정답을 나도 코드 속에 파묻혀야 겨우 알아차리게 됨, Opus가 그럴싸해 보이는 답을 내놔도 왜 그런 결과가 나왔는지, 왜 이게 내 컨텍스트에서 맞는지까지 이해해야 함, 결국 내 업무는 반복적으로 조금씩 진행하는 단위가 대부분이라 Sonnet만으로 충분하다고 생각함
- Sonnet이 갑자기 이상해질 때(하루에 한두 번)는 Opus로 갈아타면 문제를 금방 해결하는 것 같음, 물론 비과학적인 경험이고, 사실 어떤 모델로든 바꾸면 나아지는 효과일 수도 있을 것 같음
- “Sonnet이 더 낫다”는 얘기가 도는 건 과학적 근거가 없고, 모델이 크면 좋다는 건 당연해서 사람들이 굳이 말하지 않고, 오히려 “작은 모델이 더 나은 경우도 있다”는 게 조언처럼 들리기 때문에 그 의견이 더 많이 보이는 것 같음, 내가 어제 이걸 파봤는데, 사람마다 말하는 게 달랐음, 얻을만한 결론은 결국 Max 요금제에서 Opus에서 Sonnet으로 잠깐 떨어져도 그렇게 품질 하락을 걱정할 필요까지는 없다는 점임
- Opus는 복잡하고 여러 단계를 거쳐야 하는 문제 해결이나 맥락 추적이 필요한 긴 작업에서 더 나은 것 같음, 그래서 어려운 문제에만 Opus를 쓰고 나머지는 Sonnet으로 하는데, 그게 대체로 충분하고 토큰 제한도 훨씬 덜 부딪침
- 나 같은 경우 Max 플랜을 쓰는데 Opus가 Sonnet보다 결과물 품질이 좀 더 좋음, 근데 이건 Opus 사용이 가능할 때만 해당되고, 웃긴 건 Max 플랜인데도 사용 제한이 금방 걸림, 어제는 출근해서 몇 분 만에 사용 한도에 도달함
Opus 4.1이 Opus 4와 똑같이 쓸데없는 듯하고, 오히려 토큰만 더 빨리 소모되는 느낌임, 사용량을 알 수 있게 해주면 좋겠음, 적어도 Sonnet 4는 아직 쓸만하긴 한데 결과물이 점점 몽롱해지고 있음, 오늘 오전을 Claude Code에 낭비했는데 애초에 직접 했으면 나았을 거라는 생각이 드는 하루였음
- 나도 Sonnet이 점점 성능이 떨어진다는 걸 느끼고 있음, 설명이 길어지고 군더더기 많아지고, 다 리스트로 만들려고 하고, 심지어 너무 맞장구까지 잘 쳐서 경쟁사에 질렸던 버릇이 생기고 있음
- 이건 내 프로젝트가 커져서 그런 것 같음, Claude Code가 2천 라인에서 10만 라인 넘는 프로젝트로 커진 거 따라가려고 하니 당연히 힘들게 느껴지는 것 같음
- 새로운 Opus 4.1은 첫 대화에서 바로 전체 웹앱을 만들어주려고 들긴 했지만, 예전 꽉 막힌 로봇과 달리 맥락 파악을 더 빨리 하고, 시스템에 대해 제대로 질문을 해서 업데이트용 문서 작성도 완수해줌, 예전엔 매 챗마다 같은 설명 반복해야 해서 짜증났는데 이젠 안 그럼, 대신 토큰 소진 속도가 확실히 빨라져서 예전처럼 몇 시간 대화하긴 힘들어짐, 아무튼 토큰을 다 쓰기 전에 마지막 태스크를 처리해주면 그걸로 만족함
- “오늘 오전을 Claude Code에 낭비했다”는 말에 ‘Welcome to the machine’ 링크
새로운 모델로 Claude Plays Pokemon 방송이 재시작됨 링크, 예전엔 Team Rocket 숨겨진 곳에서 몇 주 동안 갇혀 있었음
기사에서 “몇 주 내로 모델이 크게 개선될 예정”이라고 함, Sonnet 4가 우리 제품에 가장 적합했는데 Haiku 4(또는 4.1)가 저렴해서 한 번 써보고 싶음, Anthropic이 이번에 Haiku 4에 대해 아무 언급도 안 한 게 의외임
오늘이 Claude 쓰면서 역대 최악의 하루였음, 그냥 망가졌음, 오늘 배포 때문인지는 모르겠는데, 문서에 욕설이 나오고 몇 시간 동안 왔다 갔다 해도 버그가 안 고쳐짐
나는 기사에서 “몇 주 내로 모델이 크게 개선될 것”이라는 부분에 제일 관심이 감
- 이건 사람들이 바로 GPT5로 떠나지 말라고 하는 말이라고 생각함
이번 업데이트는 그들 기준으로도 거의 개선이 없는 수준임, 나쁘다는 건 아니지만 누구도 그 차이를 체감하지 못할 듯함
- 아마 대부분 분위기(바이브) 차이겠지만 그것도 중요한 요소라고 생각함, 공식 벤치마크엔 없지만, Opus 4.1이 주니어 개발자 벤치마크에서 Opus 4보다 1 표준편차 정도 향상된 성능을 보였고, 이는 Sonnet 3.7에서 Sonnet 4로의 점프와 비슷한 수준이라고 함
- 아직 제대로 테스트해보진 않았지만 출력 품질에서 확연한 차이는 없는 듯, 대신 제공된 문서나 지침을 더 잘 따르는 건 느껴짐, 단 아직 그걸 정량화 또는 객관적으로 확인하진 못함, Opus 4.1이 숨은 정보(Needles-in-the-Haystack)를 찾는 것뿐 아니라 그런 요소를 굳이 지시하지 않아도 더 잘 따르긴 함
- 그래서 버전명을 4.1로 붙인 거라고 생각함, 4.5는 절대 아니라서
- 앞으로 10개 모델 더 낼 여유를 남겨둔 것 같음, 벤치마크를 100%로 찍으면 새 모델이 필요 없으니 일부러 수치를 조정하는 것 같은 마케팅 느낌이 어느 정도 있음, 어차피 훈련 데이터셋이랑 똑같은 문제만 푸니까 완전히 새로운 질문엔 약할 수밖에 없음
- 성적표 이미지에서 Opus 4.1만 하이라이트한 게 재미있었음. Opus 4.1이 절반 정도 벤치마크만 최고 점수이고 나머지는 아니거나 심지어 Opus 4.0보다 낮은 것도 있는데, 경쟁 모델들의 점수는 아예 표시 안 함
Opus와 Sonnet 가격이 똑같이 비싼 한 Opus 사용량이 Sonnet을 절대 못 넘을 거라 생각함, OpenRouter 랭킹링크으로 보면 Sonnet 3.7과 4가 합쳐서 Opus 4보다 17배 더 많은 토큰을 처리하는 중임

답변달기

Anthropic, Claude Opus 4.1 공개

Claude Opus 4.1 주요 특징

주요 개선점

주요 항목별 성능 비교

벤치마크표 요약

실제 사용·배포 환경

향후 계획

참고

Hacker News 의견