6P by laeyoung 1일전 | ★ favorite | 댓글 2개

Claude Opus 4.5, 그리고 새로운 LLM 평가가 점점 더 어려워지는 이유

가격은 매우 만족

  • 입력은 백만 달러당 5달러, 출력은 백만 달러당 25달러
  • 이전 Opus의 15달러/75달러보다 훨씬 저렴함
  • 또한 GPT-5.1 제품군(1.25달러/10달러) 및 Gemini 3 Pro(2달러/12달러, 또는 20만 토큰 이상 구매 시 4달러/18달러)와 비교해도 경쟁력이 있음

Opus 4.5 변경 중 흥미로운 개선사항

  • Opus 4.5에는 기본적으로 높음으로 설정된 새로운 effort 매개변수가 추가됨
  • 향상된 Computer use을 지원하며 , 특히 zoom을 제공해서 화면의 확대된 영역을 검사하도록 요청할 수 있는 도구를 제공함
  • 이전 보조 턴의 사고 블록은 기본과 다르게 기본적으로 모델 컨텍스트에서 보존됨

평가의 어려움

  • 최전선 LLM의 성능을 구분하기가 더 어려워짐
  • SWE-bench Verified와 같은 벤치마크에서는 모델들이 한 자릿수 퍼센트 포인트 차이가 나는 걸 버여줌
  • 그러나 이것이 실제 문제를 해결하려 했을 때, 어떤 결과를 가져올지? 어떤 차이가 있을지는 설명해주지 않음
  • 일단 자전거 타는 펠리컨 그리기는 계속.

Anthropic에서 Opus 4.5 벤치마크 그래프

  • 그냥 그리면 높이가 거의 비슷해서, 그래프의 Y축의 0-70 구간이 축약 되어 있습니다.