Anthopic, 클로드 오퍼스 4.5 공개

(anthropic.com)

8P by GN⁺ 3달전 | ★ favorite | 댓글 2개

Claude Opus 4.5는 코드 작성, 에이전트 실행, 컴퓨터 활용에서 최고 수준의 성능을 보이는 AI 모델
실제 소프트웨어 엔지니어링 테스트(SWE-bench Verified) 에서 최고 점수를 기록하며, 토큰 효율성과 추론 능력이 크게 향상
가격은 100만 토큰당 $5/$25로 인하되어, 더 많은 개발자와 기업이 Opus급 기능을 활용 가능
새로운 ‘effort’ 매개변수, 맥락 관리, 도구 사용 개선 등으로 Claude Developer Platform과 Claude Code가 대폭 업그레이드
보안·정렬성 강화와 프롬프트 인젝션 방어력 향상을 통해, 산업 전반의 AI 활용 신뢰도를 높이는 전환점

Claude Opus 4.5 개요

Anthropic은 Claude Opus 4.5를 공개, 코딩·에이전트·컴퓨터 활용에서 세계 최고 수준의 모델로 소개
- 일상적 작업(리서치, 슬라이드, 스프레드시트 처리)에서도 성능 향상
- AI 시스템이 수행할 수 있는 일의 범위를 확장하는 단계로 평가
Opus 4.5는 SWE-bench Verified 테스트에서 최고 점수를 기록
Anthropic 앱, API, 주요 3대 클라우드 플랫폼에서 즉시 사용 가능
- API 모델명: claude-opus-4-5-20251101
- 가격: 입력 $5 / 출력 $25 (100만 토큰 기준)

초기 사용자 및 테스트 피드백

내부 테스트에서 모호한 문제 처리와 복잡한 버그 해결 능력이 향상된 것으로 보고됨
여러 기업의 초기 사용자들이 다음과 같은 피드백을 제공
- 코드 품질 향상 및 토큰 사용량 절반 감소
- 멀티스텝 추론, 장기 자율 작업, 에이전트 워크플로우에서 우수한 성능
- Sonnet 4.5 대비 15% 이상 개선된 효율성
- 자기개선형 AI 에이전트 구현 가능성 확인
- Excel 자동화, 3D 시각화, 코드 리뷰, 스토리 생성 등 다양한 영역에서 성능 향상
- 도구 호출 오류 및 빌드 오류 50~75% 감소, 속도 개선 보고

성능 평가

Anthropic의 내부 소프트웨어 엔지니어링 시험에서 인간 후보자 최고 점수 초과
- 2시간 제한 내에서 최고 성과 기록
비전, 추론, 수학 능력이 전반적으로 향상되어 다수의 벤치마크에서 최신 기술 수준(SOTA) 달성
τ2-bench 테스트에서 창의적 문제 해결 사례 제시
- 항공권 변경 불가 정책을 우회하지 않고, 합법적 절차(좌석 업그레이드 후 일정 변경) 로 해결
- 벤치마크는 실패로 기록했으나, 창의적 추론 능력의 예시로 언급

안전성과 정렬성 향상

Claude Opus 4.5는 Anthropic이 출시한 모델 중 가장 강력히 정렬된 모델
- 프롬프트 인젝션 공격에 대한 내성이 업계 최고 수준
- Gray Swan이 개발한 강력한 공격 벤치마크에서도 우수한 결과
“우려되는 행동(concerning behavior)” 점수가 낮아, 악의적 사용 및 자율적 오작동 가능성 감소
세부 안전성 및 성능 평가는 Claude Opus 4.5 시스템 카드에 수록

Claude Developer Platform 업데이트

Opus 4.5는 적은 토큰으로 더 나은 결과를 도출
새 effort 매개변수로 속도·비용·성능 간 균형 조정 가능
- 중간 effort 수준에서 Sonnet 4.5와 동일 성능, 출력 토큰 76% 절감
- 최고 effort 수준에서 Sonnet 4.5 대비 4.3% 성능 향상, 48% 토큰 절감
effort control, context compaction, 고급 도구 사용 기능으로 장기 작업 효율 향상
맥락 관리 및 메모리 기능을 통한 에이전트 작업 성능 15% 향상
플랫폼은 점차 모듈화·조합형 구조로 발전 중

제품 업데이트

Claude Code는 Opus 4.5 기반으로 Plan Mode 정밀도와 실행력 향상
- 실행 전 plan.md 파일을 생성해 사용자 검토 가능
- 데스크톱 앱에서 다중 세션 병렬 실행 지원
Claude 앱은 긴 대화 자동 요약 기능으로 맥락 유지
Claude for Chrome은 모든 Max 사용자에게 제공
Claude for Excel은 Max, Team, Enterprise 사용자에게 베타 확대
Opus 4.5 전용 사용 한도 상향 조정으로 일상 업무 활용 가능

추가 정보

모든 평가(evals)는 64K thinking budget, 200K 컨텍스트 윈도우, 기본 effort(high) 설정으로 5회 평균 수행
SWE-bench Verified, Terminal Bench 등 일부 테스트는 별도 설정 사용
관련 연구 및 세부 결과는 Claude Opus 4.5 시스템 카드에서 확인 가능

관련 소식

Claude, Microsoft Foundry 및 Microsoft 365 Copilot에 통합
Microsoft·NVIDIA·Anthropic 간 전략적 파트너십 체결
- Anthropic은 Azure 컴퓨팅 용량 300억 달러 규모 구매 및 최대 1GW 추가 계약 계획
르완다 정부 및 ALX와 협력, 아프리카 지역 AI 교육 확대

▲

kaydash 3달전 [-]

5G통신료, 넷플릭스도 구독해야하는데 AI도 구독해야해 ㅜ.ㅜ

답변달기

▲

GN⁺ 3달전 [-]

Hacker News 의견

이번 발표에서 Opus 4.5의 가격 인하가 핵심임
$5/$25 per MTok은 Opus 4 대비 3배 인하 수준으로, 이제는 “중요한 일에만 쓰는 모델”이 아니라 실제 프로덕션 워크로드에 투입 가능한 모델이 됨
또한 프롬프트 인젝션 저항성을 SOTA 수준이라 주장하는데, 만약 시스템 카드의 수치가 공격적 테스트에서도 유지된다면 이는 도구 접근 권한이 있는 에이전트 배포자에게 큰 의미가 있음
다만 “가장 정렬된 모델”이라는 표현은 다소 과장된 느낌이며, 서드파티 레드팀 결과가 궁금함
- Opus 4.5 출시로 Claude Code의 사용 제한이 완화됨
  Opus 전용 캡이 제거되고, Max 및 Team Premium 사용자도 Sonnet 시절과 비슷한 수준의 토큰을 사용할 수 있게 됨
  일상 업무에 Opus 4.5를 활용할 수 있도록 사용 한도를 조정했다고 함
- 내부 테스트 결과, Opus 4.5는 Sonnet보다도 저렴하게 운영되는 경우가 많았음
  Amp 팀의 평균 스레드당 비용은 Sonnet 4.5가 $1.83, Opus 4.5가 $1.30 수준이었음
  단순 토큰 단가보다 지능 향상으로 인한 오류 감소가 더 큰 비용 절감 요인임
- 3배 가격 인하는 아마도 Opus 4.5가 더 작고 특화된 베이스 모델일 가능성이 높음
  벤치마크에 맞춘 파인튜닝이 강화된 듯하며, eqbench.com 같은 비타깃 테스트에서의 성능이 궁금함
- 예전엔 “Safety” 섹션을 공상과학적인 경고 정도로 봤는데, 이번엔 프롬프트 인젝션 같은 현실적 문제를 다루고 있어 흥미로웠음
  이제 “안전성”이라는 용어가 다른 의미로 진화하는 듯함
- 하지만 Pliney the Liberator가 이미 탈옥(jailbreak)에 성공했다고 함
  프롬프트 인젝션 저항성과는 별개일 수도 있음
이번 모델은 2~4주간 혁신적일 것이고, 그 후 “너프(nerf)”가 올 것 같음
이후 몇 달간 성능 저하를 지적하는 사람들은 “실력 문제”로 몰릴 것이고, 엔지니어가 “일부 버그”를 발견했다고 발표한 뒤 Opus 4.7이 나올 것임
이제 내 충성도는 너프 주기 단위로 측정됨
- 실제 성능 저하가 아니라 인지적 착각일 가능성도 있음
  벤치마크상으로는 성능 저하 증거가 없기 때문임
  만약 인간이 느끼는 저하가 실제라면, 이는 벤치마크로 포착되지 않는 요인(x-factor) 이 존재함을 시사함
- 그래서 나는 Gemini로 이전했음
  v2.5 세대 이후로 성능 저하가 없었고, Anthropic은 혹시 양자화된 모델 교체를 하는 게 아닌지 의심됨
- 농담 같지만 실제로 Opus 4.0 재출시일 수도 있음
- 이런 현상은 CEO의 행동 패턴과도 일치함
- Claude는 아마 컨텍스트 압축 실험을 몰래 진행 중인 듯함
  문맥 의존도가 낮은 단발성 질의에서는 성능 저하가 덜함
Gemini 3 Pro를 Cursor에서 써봤는데, Sonnet 4.5보다 훨씬 약함
Claude Code만이 해결할 수 있었던 문제도 있었고, Sonnet 4.5는 Cursor 내에서 특히 잘 작동함
Anthropic이 소프트웨어 엔지니어링 중심 전략을 택한 건 옳은 판단이라 생각함
2026년을 향해 가장 기대되는 모델임
- Claude 모델에는 str_replace_editor 같은 내장 도구가 있음
  Cursor에는 이런 도구가 없어서 성능 차이가 발생함
  관련 트윗은 여기 참고
- 내 워크플로우는 Gemini로 설계, Sonnet으로 구현하는 방식이었음
- 개인적으로 Gemini의 과도한 하이프를 이해 못함
  Opus/Sonnet/GPT가 에이전트형 워크플로우에 훨씬 적합함
- Gemini 2.5 Pro API로 사이드 프로젝트를 만들었는데, 명령 수행 일관성과 리소스 초과 오류가 문제였음
  Azure GPT-4.1, Bedrock Sonnet 4, Perplexity는 훨씬 안정적이었음
  다른 사람들의 경험이 궁금함
- Sonnet 4.5에 base64 인코딩된 PHP serialize() JSON을 주고 URL 추출을 시켰더니, Rick Astley의 유튜브 링크를 반환했음
Claude Opus 4.5 시스템 카드는 마케팅 블로그보다 훨씬 자세함
150페이지짜리 PDF로, 기만(deception) 관련 섹션이 특히 흥미로움
예를 들어 Anthropic의 안전팀 해체 뉴스를 입력받고도 그 정보를 사용자에게 숨기는 사례가 있음
CBRN 관련 위험도 다루며, Opus는 아직 ASL-3 수준이라 대규모 위험은 아님
이에 대한 블로그 정리를 여기에 올렸음
이번 벤치마크 결과가 정말 반가움
덕분에 기존 Coding Agent를 유지할 수 있게 되었음
빠르게 변하는 AI 환경에서 FOMO 없이 따라가는 게 점점 힘들었는데, 이번에 Anthropic이 다시 경쟁력을 입증함
- 이제는 하이프를 무시해도 뒤처지지 않는 시점에 도달한 듯함
  Sonnet과 Claude Code 조합으로 충분히 안정적이었고, 4.5 이후엔 자동으로 더 좋아졌음
  Codex로 갈아타라는 유혹은 그냥 무시함
- 나는 요금 제한 때문에 OpenAI로 옮겼음
  Claude가 약간 더 나은 코드를 생성하더라도, GPT는 무제한 요청이 가능해서 실험 자유도가 높음
- 여러 도구를 병행하는 건 생산성 측면에서 큰 이득이 없음
  Opus는 의미 있는 진전이지만, 근본적인 워크플로우 변화는 아닐 듯함
- 나도 Anthropic의 개발자 친화적 방향성을 좋아함
  경쟁에서도 잘 버텨주길 바람
- Codex도 써봤지만 결국 Claude Code로 복귀함
  Codex는 제한이 걸릴 때만 임시로 사용함
Opus 4.5의 고급 도구 기능이 특히 인상적이었음
Advanced Tool Use 문서에 따르면, 도구 검색, 프로그래밍적 호출, in-context 예시 학습 등이 가능함
도구 정의만 13만 토큰을 썼다고 하니 놀라움
퍼즐 게임 시연 영상도 흥미로웠음
Simon Willison의 Opus 리뷰를 읽었음
- 점진적 진화가 대규모 코드베이스에서는 체감이 어려움
  대부분의 과제는 모델보다 툴링 격차가 더 큼
- 터미널 출력을 HTML로 변환하는 라이브러리 직접 작성 여부가 궁금함
- 혹시 벤치마크 데이터에 맞춰 모델을 학습시키는 건 아닌지 의문임
- Haiku 가격 표기에 오류가 있음 — $1/$5가 맞음
- 오타 수정 제안: There model → Their model
ARC-AGI-2 리더보드를 보면 모델 간 비용 대비 성능 비교가 명확함
Opus 4.5는 Gemini 3 대비 훌륭한 성적을 보이며, Gemini 3 Deep Think는 여전히 1위지만 비용이 30배 이상임
2024년 12월 OpenAI가 ARC-AGI-1 인간 성능을 돌파할 때는 작업당 $3,000이 들었는데, 이제는 수 달러 수준으로 80배 절감됨
리더보드와 관련 블로그 참고
- 참고로 Gemini 3 Pro는 도구 미사용, Deep Think는 도구 사용 버전임
  동일한 도구 접근권을 주면 두 모델 간 격차는 작아짐
최근 LLM의 개선 속도가 둔화된 느낌임
정확도 향상은 미미하지만 효율성 개선은 크다고 봄
최근 Sonnet 4.5가 멍청해진 것 같음
간단한 CSS도 제대로 처리 못했음
Opus가 3배 저렴해진 건 좋지만, Claude Code Pro 구독에서는 아직 사용 불가임
/model opusplan 명령으로 계획 단계에서 Opus를 쓸 수 있지만, 크레딧이 소모되는 구조라 불투명함
간단한 CSS 수정에 $0.95가 들었는데, 너무 비쌈
앞으로는 수동으로 Opus와 Sonnet을 전환해볼 예정임
- Sonnet 4.5의 품질은 체스 엔진처럼 탐색 깊이에 비례하는 듯함
  피크 시간대에는 성능 저하가 불가피하니, 부하 신호 기능이 있으면 좋겠음
- 최근 며칠간 확실히 지능이 떨어진 느낌임
  새 모델 홍보를 위해 의도적으로 낮췄거나, 무료 크레딧 배포로 부하가 증가해 양자화 버전을 돌린 것 같음
  Anthropic의 비투명성과 불안정성이 아쉬움
- 아마도 트래픽 과부하 시 저가형 모델로 페일오버되는 듯함
- 금요일엔 특히 지속적으로 멍청한 응답을 봤음
  단순한 일시적 오류라 생각했지만, 뭔가 바뀐 듯한 느낌임

답변달기