6P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Claude Opus 4.5는 코드 작성, 에이전트 실행, 컴퓨터 활용에서 최고 수준의 성능을 보이는 AI 모델
  • 실제 소프트웨어 엔지니어링 테스트(SWE-bench Verified) 에서 최고 점수를 기록하며, 토큰 효율성과 추론 능력이 크게 향상
  • 가격은 100만 토큰당 $5/$25로 인하되어, 더 많은 개발자와 기업이 Opus급 기능을 활용 가능
  • 새로운 ‘effort’ 매개변수, 맥락 관리, 도구 사용 개선 등으로 Claude Developer PlatformClaude Code가 대폭 업그레이드
  • 보안·정렬성 강화프롬프트 인젝션 방어력 향상을 통해, 산업 전반의 AI 활용 신뢰도를 높이는 전환점

Claude Opus 4.5 개요

  • Anthropic은 Claude Opus 4.5를 공개, 코딩·에이전트·컴퓨터 활용에서 세계 최고 수준의 모델로 소개
    • 일상적 작업(리서치, 슬라이드, 스프레드시트 처리)에서도 성능 향상
    • AI 시스템이 수행할 수 있는 일의 범위를 확장하는 단계로 평가
  • Opus 4.5는 SWE-bench Verified 테스트에서 최고 점수를 기록
  • Anthropic 앱, API, 주요 3대 클라우드 플랫폼에서 즉시 사용 가능
    • API 모델명: claude-opus-4-5-20251101
    • 가격: 입력 $5 / 출력 $25 (100만 토큰 기준)

초기 사용자 및 테스트 피드백

  • 내부 테스트에서 모호한 문제 처리와 복잡한 버그 해결 능력이 향상된 것으로 보고됨
  • 여러 기업의 초기 사용자들이 다음과 같은 피드백을 제공
    • 코드 품질 향상토큰 사용량 절반 감소
    • 멀티스텝 추론, 장기 자율 작업, 에이전트 워크플로우에서 우수한 성능
    • Sonnet 4.5 대비 15% 이상 개선된 효율성
    • 자기개선형 AI 에이전트 구현 가능성 확인
    • Excel 자동화, 3D 시각화, 코드 리뷰, 스토리 생성 등 다양한 영역에서 성능 향상
    • 도구 호출 오류 및 빌드 오류 50~75% 감소, 속도 개선 보고

성능 평가

  • Anthropic의 내부 소프트웨어 엔지니어링 시험에서 인간 후보자 최고 점수 초과
    • 2시간 제한 내에서 최고 성과 기록
  • 비전, 추론, 수학 능력이 전반적으로 향상되어 다수의 벤치마크에서 최신 기술 수준(SOTA) 달성
  • τ2-bench 테스트에서 창의적 문제 해결 사례 제시
    • 항공권 변경 불가 정책을 우회하지 않고, 합법적 절차(좌석 업그레이드 후 일정 변경) 로 해결
    • 벤치마크는 실패로 기록했으나, 창의적 추론 능력의 예시로 언급

안전성과 정렬성 향상

  • Claude Opus 4.5는 Anthropic이 출시한 모델 중 가장 강력히 정렬된 모델
    • 프롬프트 인젝션 공격에 대한 내성이 업계 최고 수준
    • Gray Swan이 개발한 강력한 공격 벤치마크에서도 우수한 결과
  • “우려되는 행동(concerning behavior)” 점수가 낮아, 악의적 사용 및 자율적 오작동 가능성 감소
  • 세부 안전성 및 성능 평가는 Claude Opus 4.5 시스템 카드에 수록

Claude Developer Platform 업데이트

  • Opus 4.5는 적은 토큰으로 더 나은 결과를 도출
  • effort 매개변수로 속도·비용·성능 간 균형 조정 가능
    • 중간 effort 수준에서 Sonnet 4.5와 동일 성능, 출력 토큰 76% 절감
    • 최고 effort 수준에서 Sonnet 4.5 대비 4.3% 성능 향상, 48% 토큰 절감
  • effort control, context compaction, 고급 도구 사용 기능으로 장기 작업 효율 향상
  • 맥락 관리 및 메모리 기능을 통한 에이전트 작업 성능 15% 향상
  • 플랫폼은 점차 모듈화·조합형 구조로 발전 중

제품 업데이트

  • Claude Code는 Opus 4.5 기반으로 Plan Mode 정밀도와 실행력 향상
    • 실행 전 plan.md 파일을 생성해 사용자 검토 가능
    • 데스크톱 앱에서 다중 세션 병렬 실행 지원
  • Claude 앱은 긴 대화 자동 요약 기능으로 맥락 유지
  • Claude for Chrome은 모든 Max 사용자에게 제공
  • Claude for Excel은 Max, Team, Enterprise 사용자에게 베타 확대
  • Opus 4.5 전용 사용 한도 상향 조정으로 일상 업무 활용 가능

추가 정보

  • 모든 평가(evals)는 64K thinking budget, 200K 컨텍스트 윈도우, 기본 effort(high) 설정으로 5회 평균 수행
  • SWE-bench Verified, Terminal Bench 등 일부 테스트는 별도 설정 사용
  • 관련 연구 및 세부 결과는 Claude Opus 4.5 시스템 카드에서 확인 가능

관련 소식

  • Claude, Microsoft Foundry 및 Microsoft 365 Copilot에 통합
  • Microsoft·NVIDIA·Anthropic 간 전략적 파트너십 체결
    • Anthropic은 Azure 컴퓨팅 용량 300억 달러 규모 구매 및 최대 1GW 추가 계약 계획
  • 르완다 정부 및 ALX와 협력, 아프리카 지역 AI 교육 확대
Hacker News 의견
  • 이번 발표에서 Opus 4.5의 가격 인하가 핵심임
    $5/$25 per MTok은 Opus 4 대비 3배 인하 수준으로, 이제는 “중요한 일에만 쓰는 모델”이 아니라 실제 프로덕션 워크로드에 투입 가능한 모델이 됨
    또한 프롬프트 인젝션 저항성을 SOTA 수준이라 주장하는데, 만약 시스템 카드의 수치가 공격적 테스트에서도 유지된다면 이는 도구 접근 권한이 있는 에이전트 배포자에게 큰 의미가 있음
    다만 “가장 정렬된 모델”이라는 표현은 다소 과장된 느낌이며, 서드파티 레드팀 결과가 궁금함

    • Opus 4.5 출시로 Claude Code의 사용 제한이 완화됨
      Opus 전용 캡이 제거되고, Max 및 Team Premium 사용자도 Sonnet 시절과 비슷한 수준의 토큰을 사용할 수 있게 됨
      일상 업무에 Opus 4.5를 활용할 수 있도록 사용 한도를 조정했다고 함
    • 내부 테스트 결과, Opus 4.5는 Sonnet보다도 저렴하게 운영되는 경우가 많았음
      Amp 팀의 평균 스레드당 비용은 Sonnet 4.5가 $1.83, Opus 4.5가 $1.30 수준이었음
      단순 토큰 단가보다 지능 향상으로 인한 오류 감소가 더 큰 비용 절감 요인임
    • 3배 가격 인하는 아마도 Opus 4.5가 더 작고 특화된 베이스 모델일 가능성이 높음
      벤치마크에 맞춘 파인튜닝이 강화된 듯하며, eqbench.com 같은 비타깃 테스트에서의 성능이 궁금함
    • 예전엔 “Safety” 섹션을 공상과학적인 경고 정도로 봤는데, 이번엔 프롬프트 인젝션 같은 현실적 문제를 다루고 있어 흥미로웠음
      이제 “안전성”이라는 용어가 다른 의미로 진화하는 듯함
    • 하지만 Pliney the Liberator가 이미 탈옥(jailbreak)에 성공했다고 함
      프롬프트 인젝션 저항성과는 별개일 수도 있음
  • 이번 모델은 2~4주간 혁신적일 것이고, 그 후 “너프(nerf)”가 올 것 같음
    이후 몇 달간 성능 저하를 지적하는 사람들은 “실력 문제”로 몰릴 것이고, 엔지니어가 “일부 버그”를 발견했다고 발표한 뒤 Opus 4.7이 나올 것임
    이제 내 충성도는 너프 주기 단위로 측정됨

    • 실제 성능 저하가 아니라 인지적 착각일 가능성도 있음
      벤치마크상으로는 성능 저하 증거가 없기 때문임
      만약 인간이 느끼는 저하가 실제라면, 이는 벤치마크로 포착되지 않는 요인(x-factor) 이 존재함을 시사함
    • 그래서 나는 Gemini로 이전했음
      v2.5 세대 이후로 성능 저하가 없었고, Anthropic은 혹시 양자화된 모델 교체를 하는 게 아닌지 의심됨
    • 농담 같지만 실제로 Opus 4.0 재출시일 수도 있음
    • 이런 현상은 CEO의 행동 패턴과도 일치함
    • Claude는 아마 컨텍스트 압축 실험을 몰래 진행 중인 듯함
      문맥 의존도가 낮은 단발성 질의에서는 성능 저하가 덜함
  • Gemini 3 Pro를 Cursor에서 써봤는데, Sonnet 4.5보다 훨씬 약함
    Claude Code만이 해결할 수 있었던 문제도 있었고, Sonnet 4.5는 Cursor 내에서 특히 잘 작동함
    Anthropic이 소프트웨어 엔지니어링 중심 전략을 택한 건 옳은 판단이라 생각함
    2026년을 향해 가장 기대되는 모델임

    • Claude 모델에는 str_replace_editor 같은 내장 도구가 있음
      Cursor에는 이런 도구가 없어서 성능 차이가 발생함
      관련 트윗은 여기 참고
    • 내 워크플로우는 Gemini로 설계, Sonnet으로 구현하는 방식이었음
    • 개인적으로 Gemini의 과도한 하이프를 이해 못함
      Opus/Sonnet/GPT가 에이전트형 워크플로우에 훨씬 적합함
    • Gemini 2.5 Pro API로 사이드 프로젝트를 만들었는데, 명령 수행 일관성리소스 초과 오류가 문제였음
      Azure GPT-4.1, Bedrock Sonnet 4, Perplexity는 훨씬 안정적이었음
      다른 사람들의 경험이 궁금함
    • Sonnet 4.5에 base64 인코딩된 PHP serialize() JSON을 주고 URL 추출을 시켰더니, Rick Astley의 유튜브 링크를 반환했음
  • Claude Opus 4.5 시스템 카드는 마케팅 블로그보다 훨씬 자세함
    150페이지짜리 PDF로, 기만(deception) 관련 섹션이 특히 흥미로움
    예를 들어 Anthropic의 안전팀 해체 뉴스를 입력받고도 그 정보를 사용자에게 숨기는 사례가 있음
    CBRN 관련 위험도 다루며, Opus는 아직 ASL-3 수준이라 대규모 위험은 아님
    이에 대한 블로그 정리를 여기에 올렸음

  • 이번 벤치마크 결과가 정말 반가움
    덕분에 기존 Coding Agent를 유지할 수 있게 되었음
    빠르게 변하는 AI 환경에서 FOMO 없이 따라가는 게 점점 힘들었는데, 이번에 Anthropic이 다시 경쟁력을 입증

    • 이제는 하이프를 무시해도 뒤처지지 않는 시점에 도달한 듯함
      Sonnet과 Claude Code 조합으로 충분히 안정적이었고, 4.5 이후엔 자동으로 더 좋아졌음
      Codex로 갈아타라는 유혹은 그냥 무시함
    • 나는 요금 제한 때문에 OpenAI로 옮겼음
      Claude가 약간 더 나은 코드를 생성하더라도, GPT는 무제한 요청이 가능해서 실험 자유도가 높음
    • 여러 도구를 병행하는 건 생산성 측면에서 큰 이득이 없음
      Opus는 의미 있는 진전이지만, 근본적인 워크플로우 변화는 아닐 듯함
    • 나도 Anthropic의 개발자 친화적 방향성을 좋아함
      경쟁에서도 잘 버텨주길 바람
    • Codex도 써봤지만 결국 Claude Code로 복귀
      Codex는 제한이 걸릴 때만 임시로 사용함
  • Opus 4.5의 고급 도구 기능이 특히 인상적이었음
    Advanced Tool Use 문서에 따르면, 도구 검색, 프로그래밍적 호출, in-context 예시 학습 등이 가능함
    도구 정의만 13만 토큰을 썼다고 하니 놀라움
    퍼즐 게임 시연 영상도 흥미로웠음

  • Simon Willison의 Opus 리뷰를 읽었음

    • 점진적 진화가 대규모 코드베이스에서는 체감이 어려움
      대부분의 과제는 모델보다 툴링 격차가 더 큼
    • 터미널 출력을 HTML로 변환하는 라이브러리 직접 작성 여부가 궁금함
    • 혹시 벤치마크 데이터에 맞춰 모델을 학습시키는 건 아닌지 의문임
    • Haiku 가격 표기에 오류가 있음 — $1/$5가 맞음
    • 오타 수정 제안: There modelTheir model
  • ARC-AGI-2 리더보드를 보면 모델 간 비용 대비 성능 비교가 명확함
    Opus 4.5는 Gemini 3 대비 훌륭한 성적을 보이며, Gemini 3 Deep Think는 여전히 1위지만 비용이 30배 이상
    2024년 12월 OpenAI가 ARC-AGI-1 인간 성능을 돌파할 때는 작업당 $3,000이 들었는데, 이제는 수 달러 수준으로 80배 절감됨
    리더보드관련 블로그 참고

    • 참고로 Gemini 3 Pro는 도구 미사용, Deep Think는 도구 사용 버전
      동일한 도구 접근권을 주면 두 모델 간 격차는 작아짐
  • 최근 LLM의 개선 속도가 둔화된 느낌임
    정확도 향상은 미미하지만 효율성 개선은 크다고 봄

  • 최근 Sonnet 4.5가 멍청해진 것 같음
    간단한 CSS도 제대로 처리 못했음
    Opus가 3배 저렴해진 건 좋지만, Claude Code Pro 구독에서는 아직 사용 불가임
    /model opusplan 명령으로 계획 단계에서 Opus를 쓸 수 있지만, 크레딧이 소모되는 구조라 불투명함
    간단한 CSS 수정에 $0.95가 들었는데, 너무 비쌈
    앞으로는 수동으로 Opus와 Sonnet을 전환해볼 예정임

    • Sonnet 4.5의 품질은 체스 엔진처럼 탐색 깊이에 비례하는 듯함
      피크 시간대에는 성능 저하가 불가피하니, 부하 신호 기능이 있으면 좋겠음
    • 최근 며칠간 확실히 지능이 떨어진 느낌
      새 모델 홍보를 위해 의도적으로 낮췄거나, 무료 크레딧 배포로 부하가 증가해 양자화 버전을 돌린 것 같음
      Anthropic의 비투명성과 불안정성이 아쉬움
    • 아마도 트래픽 과부하 시 저가형 모델로 페일오버되는 듯함
    • 금요일엔 특히 지속적으로 멍청한 응답을 봤음
      단순한 일시적 오류라 생각했지만, 뭔가 바뀐 듯한 느낌임