# Anthropic, Claude Opus 4.1 공개

> Clean Markdown view of GeekNews topic #22365. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22365](https://news.hada.io/topic?id=22365)
- GeekNews Markdown: [https://news.hada.io/topic/22365.md](https://news.hada.io/topic/22365.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-06T09:57:36+09:00
- Updated: 2025-08-06T09:57:36+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-opus-4-1)
- Points: 7
- Comments: 1

## Summary

Anthropic이 공개한 **Claude Opus 4.1**은 **실전 코딩·추론 능력**과 **에이전트 작업 자동화** 영역에서 업계 선두 성능을 보이며, 특히 **대규모 코드베이스의 정밀 디버깅 및 멀티파일 리팩토링**에서 현업 개발자들과 기업 고객의 긍정적 반응을 얻고 있습니다. SWE-bench Verified 등 **실제 코드 자동화 벤치마크**에서 최고 기록을 세웠으며, **다국어 QA·도구 사용**과 같은 실무 중심 과제에서도 경쟁 모델 대비 두드러진 성과를 보입니다. 기존 사용자는 **API·Bedrock·Vertex AI 등 주요 플랫폼**에서 별도 비용 없이 즉시 업그레이드할 수 있고, 향후 수주 내로 추가적인 성능 향상과 기능 개선도 예고하고 있습니다.

## Topic Body

- **Claude Opus 4.1**은 **실전 코딩, 에이전트 작업, 추론능력**이 강화된 업그레이드 버전  
- SWE-bench Verified에서 **74.5%의 최고 코드 성능**을 기록하며, **대규모 코드베이스의 정밀 디버깅, 멀티파일 리팩토링** 등에서 탁월한 결과를 보임  
- 실제 **Rakuten, GitHub, Windsurf 등 실사용자**로부터 코드 수정 정확성과 일상 디버깅에서의 효율성, 주니어 개발자 벤치마크의 뚜렷한 향상 평가를 받음  
- **다중 파일 리팩토링** 및 상세 코드 수정 등 실제 개발 환경에서 더욱 정교해진 성능을 보임  
- 기존 Opus 4 사용자라면 별도 비용 없이 **API, Claude Code, Amazon Bedrock, Google Vertex AI**에서 즉시 이용 가능  
  
---  
  
### Claude Opus 4.1 주요 특징  
- 기존 Claude Opus 4에 비해 **agentic 작업, 실제 코드 작성, 복잡한 추론 작업**에서 성능이 향상됨  
- 향후 몇 주 내에 모델에서 더욱 큰 규모의 개선이 예정되어 있음   
  
#### 주요 개선점   
  
- **SWE-bench Verified**에서 74.5%의 코드 성능 달성  
  - **심층 리서치와 데이터 분석 능력**, 특히 세부 내용 추적과 agentic 검색에서 괄목할 만한 향상 효과를 보임  
  - 대규모 오픈소스 저장소의 버그 수정 문제를 푸는 실제 코드 기반 벤치마크에서 우수한 성적을 기록  
- **멀티파일 리팩토링, 대규모 코드베이스 내 정밀 디버깅** 등 현업 개발자 작업에 최적화됨  
  - **GitHub**에서는 Opus 4.1이 대부분의 기능에서 기존 Opus 4 대비 성능이 향상되었으며, 특별히 **다중 파일 코드 리팩토링** 작업에서 두드러진 결과로 나타남  
  - **Rakuten Group**은 Opus 4.1이 방대한 코드베이스 내에서 **정확히 필요한 부분만을 수정**하고, 불필요한 수정이나 버그 유입 없이 스타일을 유지하는 점을 높이 평가함  
  - **Windsurf**사는 자사 주니어 개발자 벤치마크에서 Opus 4.1이 Opus 4 대비 한 표준편차 향상된 성적을 보여주었고, Sonnet 3.7에서 Sonnet 4로의 업그레이드와 맞먹는 성능 도약이라고 평가  
  
  
#### 주요 항목별 성능 비교  
  
- **Agentic coding (SWE-bench Verified)**  
  - Claude Opus 4.1: **74.5%**  
  - 이전 Claude(Opus 4): 72.5%, Claude Sonnet 4: 72.7%  
  - OpenAI o3: 69.1%  
  - Gemini 2.5 Pro: 67.2%  
  - → **실제 오픈소스 코드 수정 작업에서 가장 높은 정확도** 기록  
- **Agentic terminal coding (Terminal-Bench)**  
  - Claude Opus 4.1: **43.3%** (최고)  
  - Opus 4: 39.2%  
  - Sonnet 4: 35.5%  
  - OpenAI o3: 30.2%  
  - Gemini 2.5 Pro: 25.3%  
- **Graduate-level reasoning (GPQA Diamond)**  
  - Claude Opus 4.1: **80.9%**  
  - Opus 4: 79.6%  
  - Sonnet 4: 75.4%  
  - OpenAI o3: 83.3% (최고)  
  - Gemini 2.5 Pro: 86.4% (최고)  
- **Agentic tool use (TAU-bench)**  
  - Retail 시나리오: Claude Opus 4.1 **82.4%** (최고), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%  
  - Airline 시나리오: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%  
  - Gemini 2.5 Pro는 이 부문 점수 미제공  
- **Multilingual Q&A (MMMLU)**  
  - Claude Opus 4.1: **89.5%** (최고)  
  - Opus 4: 88.8%  
  - Sonnet 4: 86.5%  
  - OpenAI o3: 88.8%  
  - Gemini 2.5 Pro: 미제공  
- **Visual reasoning (MMMU)**  
  - Claude Opus 4.1: **77.1%**  
  - Opus 4: 76.5%  
  - Sonnet 4: 74.4%  
  - OpenAI o3: 82.9% (최고)  
  - Gemini 2.5 Pro: 82% (최고)  
- **High school math competition (AIME 2025)**  
  - Claude Opus 4.1: **78.0%**  
  - Opus 4: 75.5%  
  - Sonnet 4: 70.5%  
  - OpenAI o3: 88.9% (최고)  
  - Gemini 2.5 Pro: 88% (최고)  
- # 벤치마크표 요약  
  - **Claude Opus 4.1**은 전작 대비 모든 영역에서 일관된 상승세를 보이며, 실제 코드 자동화·멀티파일 리팩토링·다국어 QA·도구 사용 등 **실무 중심 벤치마크에서 최고 성적**을 기록함  
  - 수학·시각추론·고급 추론(GPQA) 영역에서는 **OpenAI o3, Gemini 2.5 Pro**가 일부 앞서지만, **실제 코드 생산성 및 멀티언어 QA**에서는 Claude Opus 4.1이 가장 뛰어남  
  - Airline 시나리오(Agentic tool use)는 소폭 하락, Visual reasoning과 수학은 타 모델이 근소하게 앞섬  
  
#### 실제 사용·배포 환경  
  
- 기존 Opus 4 사용자는 API에서 `claude-opus-4-1-20250805`로 바로 업그레이드 권장  
- **API, Claude Code, Amazon Bedrock, Google Vertex AI** 등 다양한 경로에서 배포 및 활용 가능  
- Opus 4와 동일한 가격 정책 적용, 기존 사용자라면 즉시 업그레이드 권장  
- 시스템 카드, 모델 설명, 가격, 공식 문서 등 다양한 리소스와 함께 상세 벤치마크·평가 방법도 공개   
  
#### 향후 계획  
  
- Opus 4.1은 **코딩·추론 분야에서의 최신 발전**을 반영한 마일드 업그레이드이며, **앞으로 몇 주 내로 더욱 큰 도약**이 예고됨  
- 사용자 피드백을 적극 반영해 **지속적인 성능 개선** 및 기능 확장이 이루어질 예정  
  
### 참고  
- OpenAI o3, Gemini 2.5 Pro 등 타사 최신 모델과의 비교 데이터 출처·벤치마크 결과, 모델별 확장 사고 사용 여부까지 투명하게 표기함

## Comments


### Comment 42176

- Author: neo
- Created: 2025-08-06T09:57:36+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44800185) 
* 세 개의 주요 연구소에서 몇 시간 차이로 동시에 뭔가를 발표했음, 마치 애니메이션의 미친 전개처럼 느껴짐
  * 이런 상황이 홍보(PR)팀이 존재하는 이유임, HN 메인페이지나 뉴스 사이트에서 주목받는 것이 굉장히 중요함, 비록 1등을 할 수 없다 해도 경쟁사의 주목도를 분산시키는 것이 필수라고 생각함
  * GPT5 루머를 고려하면 아직 8월의 시작에 불과하다고 생각함
  * 요즘 같은 시대에 살아 있다는 게 신기함
  * 경쟁사가 먼저 발표하길 기다렸다가 동시에 출시해서 시장이 어떤 게 제일 나은지 판단하게 만드는 느낌임
  * 이건 확실히 우연이라고 생각함

* Opus 4(.1)은 정말 비쌈 [링크](https://openrouter.ai/anthropic/claude-opus-4.1), Sonnet도 OpenRouter + Codename Goose[링크](https://block.github.io/goose/)로 이용하면 시간당 5달러 꼴임, 놀라운 건 Sonnet 3.5도 [링크](https://openrouter.ai/anthropic/claude-3.5-sonnet) 똑같은 가격임, Gemini Flash[링크](https://openrouter.ai/google/gemini-2.5-flash)가 그나마 합리적이지만 결국은 제대로 된 결정을 못 내리고 빙빙 도는 경우가 많음, OpenAI는 나쁘지 않지만 Claude의 퍼포먼스엔 미치지 못함, 다만 Claude는 중간에 CTRL-C 누르면 API에서 400 에러가 돌아와서 불편함, 경제성 중요하다고 생각하는데 가성비는 OpenAI ChatGPT 4.1 mini[링크](https://openrouter.ai/openai/gpt-4.1-mini)가 가장 좋았음, 무의미한 토큰 남발도 없고 API도 항상 잘 동작함, 가끔 헷갈릴 때가 있지만 그럭저럭 해결해 줌
  * 큰 모델은 모델 질의용, 작은 모델은 컨텍스트 질문용이라는 생각임, Opus도 니치에 맞게 쓰면 저렴하다고 생각함
  * Claude Code를 구독으로 이용하면 훨씬 합리적인 요금으로 쓸 수 있다고 생각함, 나는 맥스 구독으로 하루 종일 Claude Code를 써도 최근 2주 동안 단 2번만 사용 한도에 도달했음
  * 내가 매번 가격비교를 할 때마다 Claude API가 항상 제일 저렴했음, 컨텍스트 캐시를 제대로 굴리면 입력 단가가 90% 가까이 절감됨, 이건 엄청난 일임
  * GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5 같은 대안도 있다고 언급하고 싶음

* Opus가 코딩에서 거의 모든 면에서 우위라고 소개되지만 실제론 Sonnet이 훨씬 낫다고 느끼는 중임, 혹시 Sonnet에서 완전히 Opus로 갈아탄 사람이 있을까, 아니면 특정 작업만 Opus로 처리하는 경우가 있는지 궁금함
  * Opus가 기술적으로 더 뛰어날 순 있지만 실제로는 큰 차이가 느껴지지 않음, 복잡한 구현을 LLM이 한 번에 맞추는 건 거의 불가능함, 설명해야 할 게 너무 많고 결과적으로 정답을 나도 코드 속에 파묻혀야 겨우 알아차리게 됨, Opus가 그럴싸해 보이는 답을 내놔도 왜 그런 결과가 나왔는지, 왜 이게 내 컨텍스트에서 맞는지까지 이해해야 함, 결국 내 업무는 반복적으로 조금씩 진행하는 단위가 대부분이라 Sonnet만으로 충분하다고 생각함
  * Sonnet이 갑자기 이상해질 때(하루에 한두 번)는 Opus로 갈아타면 문제를 금방 해결하는 것 같음, 물론 비과학적인 경험이고, 사실 어떤 모델로든 바꾸면 나아지는 효과일 수도 있을 것 같음
  * “Sonnet이 더 낫다”는 얘기가 도는 건 과학적 근거가 없고, 모델이 크면 좋다는 건 당연해서 사람들이 굳이 말하지 않고, 오히려 “작은 모델이 더 나은 경우도 있다”는 게 조언처럼 들리기 때문에 그 의견이 더 많이 보이는 것 같음, 내가 어제 이걸 파봤는데, 사람마다 말하는 게 달랐음, 얻을만한 결론은 결국 Max 요금제에서 Opus에서 Sonnet으로 잠깐 떨어져도 그렇게 품질 하락을 걱정할 필요까지는 없다는 점임
  * Opus는 복잡하고 여러 단계를 거쳐야 하는 문제 해결이나 맥락 추적이 필요한 긴 작업에서 더 나은 것 같음, 그래서 어려운 문제에만 Opus를 쓰고 나머지는 Sonnet으로 하는데, 그게 대체로 충분하고 토큰 제한도 훨씬 덜 부딪침
  * 나 같은 경우 Max 플랜을 쓰는데 Opus가 Sonnet보다 결과물 품질이 좀 더 좋음, 근데 이건 Opus 사용이 가능할 때만 해당되고, 웃긴 건 Max 플랜인데도 사용 제한이 금방 걸림, 어제는 출근해서 몇 분 만에 사용 한도에 도달함

* Opus 4.1이 Opus 4와 똑같이 쓸데없는 듯하고, 오히려 토큰만 더 빨리 소모되는 느낌임, 사용량을 알 수 있게 해주면 좋겠음, 적어도 Sonnet 4는 아직 쓸만하긴 한데 결과물이 점점 몽롱해지고 있음, 오늘 오전을 Claude Code에 낭비했는데 애초에 직접 했으면 나았을 거라는 생각이 드는 하루였음
  * 나도 Sonnet이 점점 성능이 떨어진다는 걸 느끼고 있음, 설명이 길어지고 군더더기 많아지고, 다 리스트로 만들려고 하고, 심지어 너무 맞장구까지 잘 쳐서 경쟁사에 질렸던 버릇이 생기고 있음
  * 이건 내 프로젝트가 커져서 그런 것 같음, Claude Code가 2천 라인에서 10만 라인 넘는 프로젝트로 커진 거 따라가려고 하니 당연히 힘들게 느껴지는 것 같음
  * 새로운 Opus 4.1은 첫 대화에서 바로 전체 웹앱을 만들어주려고 들긴 했지만, 예전 꽉 막힌 로봇과 달리 맥락 파악을 더 빨리 하고, 시스템에 대해 제대로 질문을 해서 업데이트용 문서 작성도 완수해줌, 예전엔 매 챗마다 같은 설명 반복해야 해서 짜증났는데 이젠 안 그럼, 대신 토큰 소진 속도가 확실히 빨라져서 예전처럼 몇 시간 대화하긴 힘들어짐, 아무튼 토큰을 다 쓰기 전에 마지막 태스크를 처리해주면 그걸로 만족함
  * “오늘 오전을 Claude Code에 낭비했다”는 말에 ‘Welcome to the machine’ [링크](https://www.youtube.com/watch?v=tBvAxSx0nAM&t=45s)

* 새로운 모델로 Claude Plays Pokemon 방송이 재시작됨 [링크](https://www.twitch.tv/claudeplayspokemon), 예전엔 Team Rocket 숨겨진 곳에서 몇 주 동안 갇혀 있었음

* 기사에서 “몇 주 내로 모델이 크게 개선될 예정”이라고 함, Sonnet 4가 우리 제품에 가장 적합했는데 Haiku 4(또는 4.1)가 저렴해서 한 번 써보고 싶음, Anthropic이 이번에 Haiku 4에 대해 아무 언급도 안 한 게 의외임

* 오늘이 Claude 쓰면서 역대 최악의 하루였음, 그냥 망가졌음, 오늘 배포 때문인지는 모르겠는데, 문서에 욕설이 나오고 몇 시간 동안 왔다 갔다 해도 버그가 안 고쳐짐

* 나는 기사에서 “몇 주 내로 모델이 크게 개선될 것”이라는 부분에 제일 관심이 감
  * 이건 사람들이 바로 GPT5로 떠나지 말라고 하는 말이라고 생각함

* 이번 업데이트는 그들 기준으로도 거의 개선이 없는 수준임, 나쁘다는 건 아니지만 누구도 그 차이를 체감하지 못할 듯함
  * 아마 대부분 분위기(바이브) 차이겠지만 그것도 중요한 요소라고 생각함, 공식 벤치마크엔 없지만, Opus 4.1이 주니어 개발자 벤치마크에서 Opus 4보다 1 표준편차 정도 향상된 성능을 보였고, 이는 Sonnet 3.7에서 Sonnet 4로의 점프와 비슷한 수준이라고 함
  * 아직 제대로 테스트해보진 않았지만 출력 품질에서 확연한 차이는 없는 듯, 대신 제공된 문서나 지침을 더 잘 따르는 건 느껴짐, 단 아직 그걸 정량화 또는 객관적으로 확인하진 못함, Opus 4.1이 숨은 정보(Needles-in-the-Haystack)를 찾는 것뿐 아니라 그런 요소를 굳이 지시하지 않아도 더 잘 따르긴 함
  * 그래서 버전명을 4.1로 붙인 거라고 생각함, 4.5는 절대 아니라서
  * 앞으로 10개 모델 더 낼 여유를 남겨둔 것 같음, 벤치마크를 100%로 찍으면 새 모델이 필요 없으니 일부러 수치를 조정하는 것 같은 마케팅 느낌이 어느 정도 있음, 어차피 훈련 데이터셋이랑 똑같은 문제만 푸니까 완전히 새로운 질문엔 약할 수밖에 없음
  * 성적표 이미지에서 Opus 4.1만 하이라이트한 게 재미있었음. Opus 4.1이 절반 정도 벤치마크만 최고 점수이고 나머지는 아니거나 심지어 Opus 4.0보다 낮은 것도 있는데, 경쟁 모델들의 점수는 아예 표시 안 함

* Opus와 Sonnet 가격이 똑같이 비싼 한 Opus 사용량이 Sonnet을 절대 못 넘을 거라 생각함, OpenRouter 랭킹[링크](https://openrouter.ai/rankings)으로 보면 Sonnet 3.7과 4가 합쳐서 Opus 4보다 17배 더 많은 토큰을 처리하는 중임