Simon Willison의 Claude 4.5 Opus 리뷰

(simonwillison.net)

8P by laeyoung 8달전 | ★ favorite | 댓글 2개

Claude Opus 4.5, 그리고 새로운 LLM 평가가 점점 더 어려워지는 이유

가격은 매우 만족

입력은 백만 달러당 5달러, 출력은 백만 달러당 25달러
이전 Opus의 15달러/75달러보다 훨씬 저렴함
또한 GPT-5.1 제품군(1.25달러/10달러) 및 Gemini 3 Pro(2달러/12달러, 또는 20만 토큰 이상 구매 시 4달러/18달러)와 비교해도 경쟁력이 있음

Opus 4.5 변경 중 흥미로운 개선사항

Opus 4.5에는 기본적으로 높음으로 설정된 새로운 effort 매개변수가 추가됨
향상된 Computer use을 지원하며 , 특히 zoom을 제공해서 화면의 확대된 영역을 검사하도록 요청할 수 있는 도구를 제공함
이전 보조 턴의 사고 블록은 기본과 다르게 기본적으로 모델 컨텍스트에서 보존됨

평가의 어려움

최전선 LLM의 성능을 구분하기가 더 어려워짐
SWE-bench Verified와 같은 벤치마크에서는 모델들이 한 자릿수 퍼센트 포인트 차이가 나는 걸 버여줌
그러나 이것이 실제 문제를 해결하려 했을 때, 어떤 결과를 가져올지? 어떤 차이가 있을지는 설명해주지 않음
일단 자전거 타는 펠리컨 그리기는 계속.

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

youknowone 8달전 [-]

번역: https://rosettalens.com/s/ko/claude-opus

laeyoung 8달전 [-]

Anthropic에서 Opus 4.5 벤치마크 그래프

그냥 그리면 높이가 거의 비슷해서, 그래프의 Y축의 0-70 구간이 축약 되어 있습니다.