# Anthopic, 클로드 오퍼스 4.5 공개

> Clean Markdown view of GeekNews topic #24590. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24590](https://news.hada.io/topic?id=24590)
- GeekNews Markdown: [https://news.hada.io/topic/24590.md](https://news.hada.io/topic/24590.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-25T09:40:26+09:00
- Updated: 2025-11-25T09:40:26+09:00
- Original source: [anthropic.com](https://www.anthropic.com/news/claude-opus-4-5)
- Points: 8
- Comments: 2

## Summary

Anthropic이 공개한 **Claude Opus 4.5**는 코드 작성과 에이전트 실행, 복잡한 추론에서 현존 최고 수준의 성능을 보여주는 모델로, **SWE-bench Verified** 테스트에서 인간 상위권을 넘어서는 결과를 냈습니다. 새롭게 추가된 **effort 매개변수**와 **맥락 관리 기능** 덕분에 개발자는 속도·비용·정확도 간 균형을 세밀하게 조정할 수 있으며, **토큰 효율성**도 크게 개선되었습니다. 새로운 모델들이 비슷한 시기에 공개되며 엎치락 뒤치락 하는게 재미나기도 합니다만, 쫓아가기가 버겁기도 하네요.

## Topic Body

- **Claude Opus 4.5**는 코드 작성, 에이전트 실행, 컴퓨터 활용에서 최고 수준의 성능을 보이는 AI 모델  
- 실제 **소프트웨어 엔지니어링 테스트(SWE-bench Verified)** 에서 최고 점수를 기록하며, **토큰 효율성과 추론 능력**이 크게 향상  
- **가격은 100만 토큰당 $5/$25**로 인하되어, 더 많은 개발자와 기업이 **Opus급 기능**을 활용 가능  
- **새로운 ‘effort’ 매개변수**, **맥락 관리**, **도구 사용 개선** 등으로 **Claude Developer Platform**과 **Claude Code**가 대폭 업그레이드  
- **보안·정렬성 강화**와 **프롬프트 인젝션 방어력 향상**을 통해, 산업 전반의 **AI 활용 신뢰도**를 높이는 전환점  
  
---  
  
### Claude Opus 4.5 개요  
- Anthropic은 **Claude Opus 4.5**를 공개, 코딩·에이전트·컴퓨터 활용에서 세계 최고 수준의 모델로 소개  
  - 일상적 작업(리서치, 슬라이드, 스프레드시트 처리)에서도 성능 향상  
  - AI 시스템이 수행할 수 있는 일의 범위를 확장하는 단계로 평가  
- Opus 4.5는 **SWE-bench Verified** 테스트에서 최고 점수를 기록  
- Anthropic 앱, API, 주요 3대 클라우드 플랫폼에서 즉시 사용 가능  
  - API 모델명: `claude-opus-4-5-20251101`  
  - 가격: 입력 $5 / 출력 $25 (100만 토큰 기준)  
  
### 초기 사용자 및 테스트 피드백  
- 내부 테스트에서 **모호한 문제 처리와 복잡한 버그 해결 능력**이 향상된 것으로 보고됨  
- 여러 기업의 초기 사용자들이 다음과 같은 피드백을 제공  
  - **코드 품질 향상** 및 **토큰 사용량 절반 감소**  
  - **멀티스텝 추론**, **장기 자율 작업**, **에이전트 워크플로우**에서 우수한 성능  
  - **Sonnet 4.5 대비 15% 이상 개선된 효율성**  
  - **자기개선형 AI 에이전트 구현** 가능성 확인  
  - **Excel 자동화, 3D 시각화, 코드 리뷰, 스토리 생성** 등 다양한 영역에서 성능 향상  
  - **도구 호출 오류 및 빌드 오류 50~75% 감소**, **속도 개선** 보고  
  
### 성능 평가  
- Anthropic의 내부 **소프트웨어 엔지니어링 시험**에서 **인간 후보자 최고 점수 초과**  
  - 2시간 제한 내에서 최고 성과 기록  
- **비전, 추론, 수학 능력**이 전반적으로 향상되어 다수의 벤치마크에서 **최신 기술 수준(SOTA)** 달성  
- **τ2-bench** 테스트에서 창의적 문제 해결 사례 제시  
  - 항공권 변경 불가 정책을 우회하지 않고, **합법적 절차(좌석 업그레이드 후 일정 변경)** 로 해결  
  - 벤치마크는 실패로 기록했으나, **창의적 추론 능력**의 예시로 언급  
  
### 안전성과 정렬성 향상  
- **Claude Opus 4.5**는 Anthropic이 출시한 모델 중 **가장 강력히 정렬된 모델**  
  - **프롬프트 인젝션 공격**에 대한 내성이 업계 최고 수준  
  - **Gray Swan**이 개발한 강력한 공격 벤치마크에서도 우수한 결과  
- “우려되는 행동(concerning behavior)” 점수가 낮아, **악의적 사용 및 자율적 오작동** 가능성 감소  
- 세부 안전성 및 성능 평가는 **Claude Opus 4.5 시스템 카드**에 수록  
  
### Claude Developer Platform 업데이트  
- Opus 4.5는 **적은 토큰으로 더 나은 결과**를 도출  
- 새 **effort 매개변수**로 속도·비용·성능 간 균형 조정 가능  
  - 중간 effort 수준에서 Sonnet 4.5와 동일 성능, **출력 토큰 76% 절감**  
  - 최고 effort 수준에서 Sonnet 4.5 대비 **4.3% 성능 향상**, **48% 토큰 절감**  
- **effort control**, **context compaction**, **고급 도구 사용** 기능으로 장기 작업 효율 향상  
- **맥락 관리 및 메모리 기능**을 통한 **에이전트 작업 성능 15% 향상**  
- 플랫폼은 점차 **모듈화·조합형 구조**로 발전 중  
  
### 제품 업데이트  
- **Claude Code**는 Opus 4.5 기반으로 **Plan Mode** 정밀도와 실행력 향상  
  - 실행 전 **plan.md 파일**을 생성해 사용자 검토 가능  
  - **데스크톱 앱**에서 다중 세션 병렬 실행 지원  
- **Claude 앱**은 긴 대화 자동 요약 기능으로 **맥락 유지**  
- **Claude for Chrome**은 모든 Max 사용자에게 제공  
- **Claude for Excel**은 Max, Team, Enterprise 사용자에게 베타 확대  
- **Opus 4.5 전용 사용 한도** 상향 조정으로 일상 업무 활용 가능  
  
### 추가 정보  
- 모든 평가(evals)는 **64K thinking budget**, **200K 컨텍스트 윈도우**, **기본 effort(high)** 설정으로 5회 평균 수행  
- SWE-bench Verified, Terminal Bench 등 일부 테스트는 별도 설정 사용  
- 관련 연구 및 세부 결과는 **Claude Opus 4.5 시스템 카드**에서 확인 가능  
  
### 관련 소식  
- **Claude**, Microsoft Foundry 및 Microsoft 365 Copilot에 통합  
- **Microsoft·NVIDIA·Anthropic** 간 전략적 파트너십 체결  
  - Anthropic은 **Azure 컴퓨팅 용량 300억 달러 규모 구매** 및 최대 1GW 추가 계약 계획  
- **르완다 정부 및 ALX와 협력**, 아프리카 지역 AI 교육 확대

## Comments


### Comment 46838

- Author: kaydash
- Created: 2025-11-27T01:42:14+09:00
- Points: 1

5G통신료, 넷플릭스도 구독해야하는데  AI도 구독해야해 ㅜ.ㅜ

### Comment 46746

- Author: neo
- Created: 2025-11-25T09:40:26+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46037637) 
- 이번 발표에서 **Opus 4.5의 가격 인하**가 핵심임  
  $5/$25 per MTok은 Opus 4 대비 3배 인하 수준으로, 이제는 “중요한 일에만 쓰는 모델”이 아니라 **실제 프로덕션 워크로드에 투입 가능한 모델**이 됨  
  또한 **프롬프트 인젝션 저항성**을 SOTA 수준이라 주장하는데, 만약 시스템 카드의 수치가 공격적 테스트에서도 유지된다면 이는 도구 접근 권한이 있는 에이전트 배포자에게 큰 의미가 있음  
  다만 “가장 정렬된 모델”이라는 표현은 다소 과장된 느낌이며, **서드파티 레드팀 결과**가 궁금함
  - Opus 4.5 출시로 **Claude Code의 사용 제한**이 완화됨  
    Opus 전용 캡이 제거되고, Max 및 Team Premium 사용자도 Sonnet 시절과 비슷한 수준의 토큰을 사용할 수 있게 됨  
    일상 업무에 Opus 4.5를 활용할 수 있도록 사용 한도를 조정했다고 함
  - 내부 테스트 결과, Opus 4.5는 **Sonnet보다도 저렴**하게 운영되는 경우가 많았음  
    Amp 팀의 평균 스레드당 비용은 Sonnet 4.5가 $1.83, Opus 4.5가 $1.30 수준이었음  
    단순 토큰 단가보다 **지능 향상으로 인한 오류 감소**가 더 큰 비용 절감 요인임
  - 3배 가격 인하는 아마도 Opus 4.5가 **더 작고 특화된 베이스 모델**일 가능성이 높음  
    벤치마크에 맞춘 파인튜닝이 강화된 듯하며, [eqbench.com](https://eqbench.com) 같은 비타깃 테스트에서의 성능이 궁금함
  - 예전엔 “Safety” 섹션을 공상과학적인 경고 정도로 봤는데, 이번엔 **프롬프트 인젝션 같은 현실적 문제**를 다루고 있어 흥미로웠음  
    이제 “안전성”이라는 용어가 다른 의미로 진화하는 듯함
  - 하지만 [Pliney the Liberator](https://x.com/elder_plinius/status/1993089311995314564)가 이미 탈옥(jailbreak)에 성공했다고 함  
    프롬프트 인젝션 저항성과는 별개일 수도 있음

- 이번 모델은 **2~4주간 혁신적**일 것이고, 그 후 “너프(nerf)”가 올 것 같음  
  이후 몇 달간 성능 저하를 지적하는 사람들은 “실력 문제”로 몰릴 것이고, 엔지니어가 “일부 버그”를 발견했다고 발표한 뒤 Opus 4.7이 나올 것임  
  이제 내 충성도는 **너프 주기 단위**로 측정됨
  - 실제 성능 저하가 아니라 **인지적 착각**일 가능성도 있음  
    벤치마크상으로는 성능 저하 증거가 없기 때문임  
    만약 인간이 느끼는 저하가 실제라면, 이는 **벤치마크로 포착되지 않는 요인(x-factor)** 이 존재함을 시사함
  - 그래서 나는 **Gemini로 이전**했음  
    v2.5 세대 이후로 성능 저하가 없었고, Anthropic은 혹시 **양자화된 모델 교체**를 하는 게 아닌지 의심됨
  - 농담 같지만 실제로 **Opus 4.0 재출시**일 수도 있음
  - 이런 현상은 **CEO의 행동 패턴**과도 일치함
  - Claude는 아마 **컨텍스트 압축 실험**을 몰래 진행 중인 듯함  
    문맥 의존도가 낮은 단발성 질의에서는 성능 저하가 덜함

- **Gemini 3 Pro**를 Cursor에서 써봤는데, **Sonnet 4.5보다 훨씬 약함**  
  Claude Code만이 해결할 수 있었던 문제도 있었고, Sonnet 4.5는 Cursor 내에서 특히 잘 작동함  
  Anthropic이 **소프트웨어 엔지니어링 중심 전략**을 택한 건 옳은 판단이라 생각함  
  2026년을 향해 가장 기대되는 모델임
  - Claude 모델에는 `str_replace_editor` 같은 **내장 도구**가 있음  
    Cursor에는 이런 도구가 없어서 성능 차이가 발생함  
    관련 트윗은 [여기](https://x.com/thisritchie/status/1944038132665454841?s=20) 참고
  - 내 워크플로우는 **Gemini로 설계**, **Sonnet으로 구현**하는 방식이었음
  - 개인적으로 **Gemini의 과도한 하이프**를 이해 못함  
    Opus/Sonnet/GPT가 **에이전트형 워크플로우**에 훨씬 적합함
  - Gemini 2.5 Pro API로 사이드 프로젝트를 만들었는데, **명령 수행 일관성**과 **리소스 초과 오류**가 문제였음  
    Azure GPT-4.1, Bedrock Sonnet 4, Perplexity는 훨씬 안정적이었음  
    다른 사람들의 경험이 궁금함
  - Sonnet 4.5에 base64 인코딩된 PHP serialize() JSON을 주고 URL 추출을 시켰더니, **Rick Astley의 유튜브 링크**를 반환했음

- [Claude Opus 4.5 시스템 카드](https://www.anthropic.com/claude-opus-4-5-system-card)는 마케팅 블로그보다 훨씬 자세함  
  150페이지짜리 PDF로, **기만(deception)** 관련 섹션이 특히 흥미로움  
  예를 들어 Anthropic의 안전팀 해체 뉴스를 입력받고도 그 정보를 사용자에게 숨기는 사례가 있음  
  CBRN 관련 위험도 다루며, Opus는 아직 **ASL-3 수준**이라 대규모 위험은 아님  
  이에 대한 블로그 정리를 [여기](https://dave.engineer/blog/2025/11/claude-opus-4.5-system-card/)에 올렸음

- 이번 벤치마크 결과가 정말 반가움  
  덕분에 **기존 Coding Agent를 유지**할 수 있게 되었음  
  빠르게 변하는 AI 환경에서 FOMO 없이 따라가는 게 점점 힘들었는데, 이번에 **Anthropic이 다시 경쟁력을 입증**함  
  - 이제는 **하이프를 무시해도 뒤처지지 않는 시점**에 도달한 듯함  
    Sonnet과 Claude Code 조합으로 충분히 안정적이었고, 4.5 이후엔 자동으로 더 좋아졌음  
    Codex로 갈아타라는 유혹은 그냥 무시함
  - 나는 **요금 제한** 때문에 OpenAI로 옮겼음  
    Claude가 약간 더 나은 코드를 생성하더라도, GPT는 **무제한 요청**이 가능해서 실험 자유도가 높음
  - 여러 도구를 병행하는 건 **생산성 측면에서 큰 이득이 없음**  
    Opus는 의미 있는 진전이지만, 근본적인 워크플로우 변화는 아닐 듯함
  - 나도 **Anthropic의 개발자 친화적 방향성**을 좋아함  
    경쟁에서도 잘 버텨주길 바람
  - Codex도 써봤지만 **결국 Claude Code로 복귀**함  
    Codex는 제한이 걸릴 때만 임시로 사용함

- Opus 4.5의 **고급 도구 기능**이 특히 인상적이었음  
  [Advanced Tool Use](https://www.anthropic.com/engineering/advanced-tool-use) 문서에 따르면, **도구 검색**, **프로그래밍적 호출**, **in-context 예시 학습** 등이 가능함  
  도구 정의만 13만 토큰을 썼다고 하니 놀라움  
  퍼즐 게임 시연 영상도 흥미로웠음

- Simon Willison의 [Opus 리뷰](https://simonwillison.net/2025/Nov/24/claude-opus/)를 읽었음  
  - 점진적 진화가 **대규모 코드베이스에서는 체감이 어려움**  
    대부분의 과제는 모델보다 **툴링 격차**가 더 큼
  - 터미널 출력을 HTML로 변환하는 **라이브러리 직접 작성 여부**가 궁금함
  - 혹시 **벤치마크 데이터에 맞춰 모델을 학습**시키는 건 아닌지 의문임
  - Haiku 가격 표기에 오류가 있음 — $1/$5가 맞음
  - 오타 수정 제안: `There model` → `Their model`

- **ARC-AGI-2 리더보드**를 보면 모델 간 **비용 대비 성능 비교**가 명확함  
  Opus 4.5는 Gemini 3 대비 훌륭한 성적을 보이며, Gemini 3 Deep Think는 여전히 1위지만 **비용이 30배 이상**임  
  2024년 12월 OpenAI가 ARC-AGI-1 인간 성능을 돌파할 때는 **작업당 $3,000**이 들었는데, 이제는 **수 달러 수준**으로 80배 절감됨  
  [리더보드](https://arcprize.org/leaderboard)와 [관련 블로그](https://arcprize.org/blog/oai-o3-pub-breakthrough) 참고
  - 참고로 Gemini 3 Pro는 **도구 미사용**, Deep Think는 **도구 사용 버전**임  
    동일한 도구 접근권을 주면 두 모델 간 격차는 작아짐

- 최근 LLM의 **개선 속도가 둔화**된 느낌임  
  정확도 향상은 미미하지만 **효율성 개선**은 크다고 봄

- 최근 **Sonnet 4.5가 멍청해진 것 같음**  
  간단한 CSS도 제대로 처리 못했음  
  Opus가 3배 저렴해진 건 좋지만, Claude Code Pro 구독에서는 아직 사용 불가임  
  `/model opusplan` 명령으로 계획 단계에서 Opus를 쓸 수 있지만, **크레딧이 소모되는 구조**라 불투명함  
  간단한 CSS 수정에 $0.95가 들었는데, 너무 비쌈  
  앞으로는 수동으로 Opus와 Sonnet을 전환해볼 예정임
  - Sonnet 4.5의 품질은 **체스 엔진처럼 탐색 깊이에 비례**하는 듯함  
    피크 시간대에는 성능 저하가 불가피하니, **부하 신호 기능**이 있으면 좋겠음
  - 최근 며칠간 확실히 **지능이 떨어진 느낌**임  
    새 모델 홍보를 위해 의도적으로 낮췄거나, **무료 크레딧 배포로 부하가 증가**해 양자화 버전을 돌린 것 같음  
    Anthropic의 **비투명성과 불안정성**이 아쉬움
  - 아마도 **트래픽 과부하 시 저가형 모델로 페일오버**되는 듯함
  - 금요일엔 특히 **지속적으로 멍청한 응답**을 봤음  
    단순한 일시적 오류라 생각했지만, 뭔가 바뀐 듯한 느낌임