Anthropic이 자사의 최상위 모델인 Claude Opus의 업그레이드 버전인 Claude Opus 4.8을 출시했습니다. 이전 버전인 4.7을 기반으로 벤치마크 성능을 개선하고 협업 능력을 강화했으며, 가격은 동일하게 유지됩니다.

주요 개선 사항 및 특징

  • 성능 향상: 코딩, 에이전트 기술, 추론 및 실무 지식 작업 전반에서 이전 모델 및 GPT-5.5 등 경쟁 모델 대비 우수한 성능을 보입니다.
  • 정직성(Honesty) 강화: AI가 근거 없는 주장을 하거나 성급히 결론을 내리는 문제를 개선했습니다. Opus 4.8은 불확실한 부분을 스스로 표시하며, 코드 내 결함을 놓칠 확률이 이전 모델 대비 약 4배 낮아졌습니다.
  • 신뢰할 수 있는 에이전트 능력: 초기 테스트 결과, 복잡한 다단계 작업을 수행할 때 판단력이 날카로워졌으며, 자신의 실수를 포착하고 계획이 타당하지 않을 때 이의를 제기하는 등 더 나은 협업 능력을 보여줍니다.
  • 비용 효율성: 'Fast Mode'의 속도가 2.5배 빨라졌으며, 비용은 이전 모델 대비 3배 저렴해졌습니다.

함께 출시된 새로운 기능

  • 다이내믹 워크플로우(Dynamic Workflows): Claude Code의 연구 프리뷰 기능으로, 수백 개의 병렬 서브 에이전트를 실행하여 대규모 코드베이스 마이그레이션과 같은 복잡한 작업을 수행할 수 있습니다.
  • 노력 제어(Effort Control): 사용자가 Claude가 작업에 투입할 노력의 수준을 선택할 수 있습니다. 높은 설정에서는 더 깊게 생각하여 고품질의 응답을 제공하고, 낮은 설정에서는 더 빠르게 응답합니다.
  • 메시지 API 업데이트: 시스템 엔트리를 메시지 배열 내에 포함할 수 있게 되어, 프롬프트 캐시를 깨뜨리지 않고 작업 중간에 지침을 업데이트할 수 있습니다.

향후 계획

Anthropic은 Opus급의 성능을 더 낮은 비용으로 제공하는 모델을 개발 중이며, Project Glasswing을 통해 Opus보다 더 높은 지능을 가진 새로운 클래스의 모델(Claude Mythos)을 준비하고 있습니다. 현재 일부 조직에서 보안 테스트 중이며, 몇 주 내에 모든 고객에게 공개될 예정입니다.

가격 및 이용 안내

  • 일반 모드: 입력 $5 / 1M 토큰, 출력 $25 / 1M 토큰 (Opus 4.7과 동일)
  • 패스트 모드: 입력 $10 / 1M 토큰, 출력 $50 / 1M 토큰
  • 모델명: claude-opus-4-8

댓글과 토론

Hacker News 의견들
  • Anthropic 최전선 모델에서 세 번째 마이너 버전 상승은 이번이 처음인 것 같음
    여기서는 0.5 단위는 비순차적으로 나왔고 성능 도약도 컸으니 메이저로 봄. 예를 들면 Sonnet 3.5, Opus 4.5 같은 경우임
    이제 Opus 4.5 계열은 4.6, 4.7, 4.8 후속이 생겼고, 각각의 개선 폭은 주장상으로도 꽤 완만함
    직접 써본 4.6/4.7은 4.5에 대한 기억과 비교해 어떤 능력이 좋아졌는지 확실히 잡히지 않았고, 체감이 너무 흐릿해서 판단이 어렵다
    내 취향이 이미 포화됐거나 모델이 나보다 똑똑해져서 앞으로는 진전을 못 느낄 수도 있고, 반대로 지금 4.7 워크플로를 4.5로 돌리면 바로 알아챌 정도의 점진 개선일 수도 있음
    연구소 입장도 난처해 보임. 더 강한 제품이 있다면 출시해서 쓸 수 있게 해줬으면 하지만, 이런 흐름이 계속되면 실제 개선이 있더라도 최종 사용자에게는 점점 덜 보이고, 보상 없는 잦은 교체처럼 느껴질 가능성이 큼

    • 다음 세대의 최전선 모델이 마지막이어도 놀랍지 않음
      작은 모델에서 뽑아낼 수 있는 저매달린 과실이 아직 몇 자릿수 규모로 남아 있음
      2~3년 안에 60~90B 모델이 코딩 작업에서 현재 최고 수준을 넘을 가능성은 거의 확실해 보임. 설계가 확정된 건 아니고 아마 쉽지는 않겠지만
      반면 1.2T 모델을 학습할 만큼 의미 있게 더 좋아질지는 훨씬 불확실함
      추론 쪽은 최근 GRAM 공개를 보면 작은 모델에 붙일 수 있는 추론 개선 여지가 4자릿수 규모일 수도 있음
      Google, OpenAI, Anthropic은 며칠 만에 30B GRAM 기반 모델을 학습시킬 수 있고, 이 모델이 1T 파라미터를 넘는 오늘의 최고 모델보다 로컬 추론을 더 잘할 가능성도 있음. 여기에 며칠 만에 약 600B MoE 모델로 키우면 일반 잡학 지식도 최고 모델에 맞먹을 수 있음
      1T+ 파라미터 모델은 그렇게 빨리 학습시킬 수 없음. GRAM이 실제로 얼마나 개선하느냐가 큰 변수지만, 사소하거나 무의미할 가능성은 낮아 보임
      큰 모델은 이미 거의 무엇이든 말해줄 수 있음. LLM인 한 모든 걸 맞히지는 못할 것임
      Gemini가 Ke$ha의 키나 Brittney Spears가 마지막으로 감옥에 간 시점을 정확히 알려주는 데서 더 짜낼 여지는 많지 않아 보임
    • 4.7은 처음으로 대부분의 용도에서 이전 버전인 4.6으로 되돌아가야 했던 버전이었음. 4.8이 이걸 바로잡아주길 바람
    • 4.5와 4.7 사이에 프로그래밍 워크플로에서 의미 있거나 눈에 띄는 개선을 느꼈는지 궁금함
      개인적으로 4.5 출시 이후 생산성 향상은 모델 자체보다 하네스 개선과 200k에서 1M으로 늘어난 컨텍스트 창 덕분이라고 느낌. cc, cursor cli, codex, opencode 등에서 그랬음
      실제 모델의 “순수” 지능이나 좋은 결정을 내리는 능력은 4.5 이후 정체된 느낌임. 4.6은 약간 나아졌을 수 있지만 1M 창에서의 문맥 내 학습 효과와 구분하기 어려웠고, 4.7은 나와 동료들에게 오히려 지혜가 후퇴한 것처럼 느껴졌으며 더 나쁘고 게으른 결정을 꾸준히 내렸음
    • 더 잦은 점진 릴리스는 Anthropic이 비용을 통제하고 자원 소비를 조절하는 데 쓰는 새 기능을 배포하기 위한 목적도 있을 것 같음
      최종 사용자에게 노출되는 새 제어 기능 뒤에는 사용자 유형별로 메타 조정할 수 있는 훨씬 더 세밀한 내부 하위 제어가 있을 것이라 봄
      더 세밀한 노력 제어, “동적 워크플로”, “fast mode” 같은 속도 제어를 말하고 있음. 사용자 기능처럼 포장하지만, IPO 이후 분기 보고의 핵심 지표를 맞추기 위해 비용, 마진, ARR, 사용자 성장과 유지율 사이를 맞추는 백엔드 손잡이처럼도 보임
    • 우리 테스트에서는 4.5/4.6이 대략 비슷했음. Opus 4.7은 더 똑똑하지만 여러 성격 문제 때문에 제품으로 쓰기 어렵다
      지금까지 Opus 4.8도 그 방향으로 가는 듯함. 사용할 수 없을 만큼 느린데, 출시일 롤아웃 문제일 수도 있음. 전체 Opus 4.8 테스트는 진행 중임
      데이터는 https://gertlabs.com/rankings에 있음
  • “사용자는 Opus 4.8이 이전 버전 대비 완만하지만 체감 가능한 개선이라고 느낄 것이다”라는 태도가 신선함
    웹 UI에서 adaptive thinking을 끌 수 있는 것도 확인했는데 좋음. thinking이 작동하지 않아 모델 출력이 형편없어지는 문제가 많았기 때문임
    드디어 끌 수 있어서 다행임. 원래 언제든 끌 수 있었다면 좀 민망하긴 함

    • 그 스위치는 아마 항상 있었던 것 같은데, 끄면 원하는 동작이 되지는 않음. thinking 자체를 완전히 비활성화
    • 신선하긴 하지만 이번에는 오히려 그 표현이 부족할 수도 있음
      주로 웹 리서치를 보는데, Opus 4.7은 BrowseComp에서 Opus 4.6보다 후퇴했고 실제 사용에서도 그랬음
      Opus 4.8은 4.7이나 4.6보다 훨씬 좋아졌고, 챗봇에서 웹 검색은 핵심 사용 사례 중 하나임
    • 이런 작은 릴리스들은 사용자가 더 점진적인 업데이트 주기에 익숙해지도록 하려는 걸까 싶음
      다른 모델 제공사는 x개월마다 큰 업데이트를 하지만, 우리는 x/2개월마다 점진 업데이트를 한다는 식으로
    • 4.6에서 4.8 extra로 모델을 바꿀 때 Adaptive를 끄는 데 아마 가짜 버그를 밟은 것 같았는데, 다시 시도하니 의도대로 동작하는 듯함
      나한테 더 중요한 건 CC가 thinking 관련 4.6 “전용” 플래그에 어떻게 반응하느냐인데, 지금은 내 설정을 덮어쓰지는 않는 것 같음
    • 웹 UI가 더 좋아지길 기대했음. 가치관 측면에서는 Anthropic이 OpenAI보다 마음에 들어서 제품을 쓰고 싶지만, thinking 모드의 ChatGPT가 claude.ai보다 훨씬 나았음
      이번 변경으로 비슷한 수준까지 올라오길 바랐는데 직접 써보니 아직 아님
      ChatGPT라면 간단히 검색해서 사실을 확인하고 답할 단순 사실 질문에 Claude는 새 모델과 thinking high에서도 “좋은 질문입니다!” 뒤에 완전히 지어낸 답을 내놓음. GPT처럼 스스로 검색이 필요하다고 인식하지 않고, 기본 사실도 검색하라고 명시해야 함
  • “Opus보다 더 높은 지능을 가진 새 종류의 모델을 출시할 계획”이라는 Claude Mythos Preview 부분이 4.8 릴리스보다 더 흥미로워 보임
    Project Glasswing의 일환으로 소수 조직이 사이버보안 작업에 사용 중이고, 이 수준의 모델은 일반 공개 전에 더 강한 사이버 안전장치가 필요하다고 함

    • “더 흥미롭다”기보다는, “Mythos는 너무 위험해서 대중에게 접근 권한을 줄 수 없다”는 식의 자기 유발형 나쁜 소식이 Dario 특유의 마케팅이라는 의심이 널리 있음
      IPO가 다가오고 있다는 점도 공개 발언에 분명 반영될 것임. 공정하게 말하면 그게 그의 책임이기도 함
      모델 지연 이유가 “안전하게 만들고 있다”가 아니라 “이걸 대규모로, 혹은 비용 효율적으로 호스팅하는 방법을 모른다”일 수도 있음
      GPT 5.5는 이미 취약점 찾기에서 Mythos만큼 능숙한 것으로 보였음
      마지막으로 비전문가는 모델 성능에서 하네스의 중요성을 크게 과소평가함. OpenHands는 Claude Code보다 훨씬 오래전부터 있었지만, Claude Code는 영리한 보조 방식 때문에 판을 바꿨음. Mythos도 단순한 모델 이상일 가능성이 큼
    • 이렇게 해서 Claude Pro에서 가장 큰 모델 접근권을 빼앗을 듯함. Opus보다 큰 모델을 쓰려면 최소 Claude Max 구독은 필요하게 만들 것 같음
    • 그보다 “Opus와 같은 기능을 많이 제공하면서 더 낮은 비용의 모델을 개발하고 출시 중”이라는 부분이 더 흥미로움
      현재 중국 경쟁 모델들과 비교하면 Sonnet과 Haiku는 가격 대비 성능에서 꽤 밀려 보임
    • Opus 4.7 릴리스 노트에서는 사이버보안 능력을 의도적으로 낮췄다고 했음 https://www.anthropic.com/news/claude-opus-4-7
      그렇다면 Mythos에도 같은 일을 하고 있고, 우리가 받게 될 Mythos는 그 부분이 약화된 버전이라는 뜻일까 싶음
      더 정확히는 Mythos가 두 버전으로 나뉘고, 무서운 쪽은 계속 많은 서류 절차가 필요할 것 같음
    • 억만장자나 수십억 달러 규모 회사가 아니면 제한되고 약화된 Claude Code 슬래시 명령 /mythos-security-audit 같은 것만 받게 될 수 있다는 암시처럼 보임
      그런 식으로 평범한 사람들이 접근권에서 배제되지 않기를 바람
  • thinking level low와 high 모두에서 자전거 타는 펠리컨을 생성해봤음
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    high 결과가 확실히 더 나음. low와 달리 자전거 프레임 형태가 맞음
    비교용 Opus 4.7 결과는 여기 있음: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

  • 최전선 모델용으로 좋아하는 코딩 벤치마크는 한 파일(js/html/css)로 간단한 실시간 전략 게임을 만들게 하는 것임
    ultracode 모드의 Claude Code + Opus 4.8이 제대로 해냈고, 지금까지 최고 결과였음
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    프롬프트는 “옛 WarCraft, StarCraft, Command & Conquer 같은 간단하지만 동작하는 RTS 게임을 만들어라. 플레이어는 건물을 짓고, 유닛을 만들고, 자원을 수집하고, 전체 맵을 밝혀야 한다. AI나 멀티플레이어는 필요 없다. 단순하지만 보기 좋은 그래픽을 사용하라. 소리는 없다. HTML/CSS/JS로 모두 구현하고 단일 파일로 만들라. CDN을 통한 서드파티 js/css 라이브러리나 프레임워크 사용은 가능하다”였음

    • 이 테스트용 순위표 같은 게 있나 궁금함. Opus 4.8과 GPT 5.5에 각각 100점 만점 점수를 준다면 몇 점일까?
    • 코드가 거의 축소화된 코드처럼 보임. 변수명이 짧고 공백을 최소화하려는 형식처럼 보이는데, 스스로 이렇게 압축된 형식으로 작성한 건가?
    • 프롬프트까지 공유해줘서 유용함. 나도 Claude에게 비슷한 걸 만들게 하며 테스트해왔음
      시각 스타일이 내게 만들어준 것들과 꽤 비슷한 점도 흥미로움
    • 이 벤치마크가 마음에 듦. 결과물을 GitHub Pages에 올려두면 사람들이 게임을 직접 해볼 수 있겠음
    • 이런 벤치마크 앱 모음을 어디 저장해뒀는지 궁금함. 특히 이런 사용 사례에서 모델별 상대 비용 차이를 보고 싶음
  • 누가 이런 릴리스를 훑으면서 다른 회사들이 자기 모델을 멋져 보이게 하려고 골랐을 법한 임의 지표를 체리픽해보는지 궁금함
    벤치마크가 800만 개쯤 있는 느낌임. 매번 릴리스마다 각 모델이 5~10개를 무작위로 골라 하나 빼고 다 이긴 것처럼 보여주는데, 벤치맥스했을 가능성이 큰 벤치마크를 무작위로 체리픽한 게 아닌 척하려는 것처럼 보임

    • https://arena.ai/leaderboard는 꽤 괜찮은 순위 제공자로 느껴짐
      정확한 방법론은 모르지만 Claude/GPT 모델로 일상적인 프로그래밍을 할 때 이들이 보고하는 결과와 정성적 체감이 맞았음
    • 이번에는 지표를 6개만 넣은 게 흥미로움. Opus 4.7은 12개, 4.6은 13개였음
      4.7에서 보고했던 지표 중 4.8에서는 BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU, SWE-bench Verified를 뺐음. 마지막 4개는 이전 Opus 릴리스에서 거의 항상 언급됐음
    • 모든 벤치마크는 어느 정도 걸러 봐야 함. 나는 별로 쓰지 않음
      “5% 더 똑똑함”이 대체 무슨 뜻인가? 내 사용 경험은 다를 것임. 그냥 직접 써보는 게 낫다
      Anthropic이 내부적으로 특정 벤치마크 개선을 목표로 삼는다고는 생각하지 않음. 진전을 시각화하는 방식일 뿐이고, 내부에는 훨씬 더 복잡한 지표가 있을 것 같음
    • 이와 관련해서 모든 벤치마크를 하나의 큰 격자로 모아주는 벤치마크 집계기가 있는지 궁금함
    • 적어도 OpenAI처럼 경쟁자가 없는 척하지 않고, 각 벤치마크에서 경쟁 모델을 보여주긴 함
  • 초기 ArtificialAnalysis.ai 결과로는 아직 GPT 5.5가 가격 대비 성능이 더 좋아 보임
    OpenAI는 작업 해결에 약 50% 적은 출력 토큰을 씀
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • Codex는 새 버전이 나올 때마다 시도해보지만 나와는 맞지 않음. 그래서 모두에게 사실인 얘기는 아님
      Claude가 훨씬 더 비싸져야만 바꿀 것 같음
  • 시스템 카드 102쪽에서 창의적 숙련도에 대한 평가를 본 것이 반가움
    우리 작업에서는 여러 최전선 AI에게 필요한 API를 설계해보라고 했고, Opus 4.7과 GPT-5.5 등을 비교했음. Opus 4.7이 가장 창의적이고 지적인 API 설계를 내놓아 기분 좋게 놀랐고, 특히 GPT-5.5가 여러 코딩 벤치마크에서 앞서는 상황이라 더 그랬음
    “창의성”과 “독창성”을 측정하는 공통 벤치마크가 없다는 걸 느꼈고, 그런 벤치마크는 어떤 면에서는 흔한 IFBench와 충돌할 수도 있음
    그래도 시스템 설계에서는 매우 중요한 능력임. Anthropic이 여기에 신경 쓰는 게 반갑고, 다른 모델들이 비교할 수 있는 공개 벤치마크도 나왔으면 좋겠음
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • 내 체감으로도 4.6이 4.7보다 더 나은 코더 같음. 4.7은 훨씬 나은 전략적 사고를 하고, 5.5보다 전체적으로 더 나은 아키텍처 감각을 유지함
      5.5는 코딩에서는 둘보다 훨씬 낫지만 더 비쌈. 그래서 4.7이 계획/아키텍처를 하고, 4.6이 코딩을 한 뒤, 5.5가 비판하고 고치게 함
    • 나도 비슷하게 느낌. 계획, 전략, 아키텍처 같은 작업은 GPT-5.5보다 Opus 4.7이 훨씬 좋음
      GPT는 지시를 받고 그대로 수행하는 로봇 같고, Opus는 가끔 실제로 좋은 아이디어를 내고 나쁜 아이디어에는 반박도 하는 거의 인간 같은 느낌임
      그래서 지금은 계획/아키텍처/전략은 Opus, 순수 코딩은 GPT로 나눔
      에이전트형 코딩에서는 GPT가 받을 수 있는 토큰 여유가 더 큰 것도 도움이 됨
  • 안타깝게도 이번 백엔드 릴리스나 새 CC 버전 때문에 Claude Code가 완전히 망가진 듯함
    “thinking blocks를 수정할 수 없다”는 오류가 장기 실행 세션을 벽돌로 만들고 있음: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • 이 문제는 4.7의 stable 브랜치에서도 발생했음
      Claude에게 세션 벽돌화를 푸는 복구 스크립트를 만들게 해서 해결하긴 했지만, 환경에 따라 다를 수 있음
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • CC 업데이트는 출시 전에 테스트하지 않는 듯함. 제품을 쓰는 내부 팀이나 공개 피드백이 테스트 역할을 함
    • 도움이 될지 모르겠지만, 몇몇 가벼운 경우에는 /rewind로 복구해서 계속할 수 있었음
    • 나도 같음. 새 모델을 롤아웃하는 바로 그 시점에 이런 일이 생기는 건 좋아 보이지 않음
    • Claude와 일하는 매력의 일부임. 뭔가 새로 출시할 때마다 네 것들이 전부 깨짐
  • 내 테스트에서는 Opus 4.8이 조금 더 나쁘고, Opus 4.7보다 거의 2배 비쌈
    데이터 추출 테스트에서 실패한 게 놀라웠음. 3번 중 2번은 맞히지만 한 번은 어떤 값을 무작위로 null로 반환함
    Trivia/도메인 특화 지식 작업에서 더 많이 실패하는 건 어느 정도 이해됨. 모델들이 일반 지능보다 에이전트형 사용 사례 쪽으로 점점 더 학습되는 것 같음
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • 왠지 모든 게 2배임. 비용 2배, 평균 응답 시간 2배, 추론 및 출력 토큰 2배임
      테스트 하네스를 다시 확인 중이지만, 이런 모습을 보인 첫 모델이라 내 쪽 문제일 가능성은 낮다고 봄
      수정: 하네스는 맞는 것 같고, 순수 코딩 작업에서는 성능이 동일함: https://i.snipboard.io/5xbpzY.jpg
    • 블로그 글에는 가격이 4.7과 같다고 되어 있지 않나?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      2배 비용은 어디서 보이는 건지 궁금함
    • 새 모델 출시는 가격을 올리는 새로운 방식이 됐음 ㅎㅎ