Simon Willison의 Claude 4.5 Opus 리뷰
(simonwillison.net)Claude Opus 4.5, 그리고 새로운 LLM 평가가 점점 더 어려워지는 이유
가격은 매우 만족
- 입력은 백만 달러당 5달러, 출력은 백만 달러당 25달러
- 이전 Opus의 15달러/75달러보다 훨씬 저렴함
- 또한 GPT-5.1 제품군(1.25달러/10달러) 및 Gemini 3 Pro(2달러/12달러, 또는 20만 토큰 이상 구매 시 4달러/18달러)와 비교해도 경쟁력이 있음
Opus 4.5 변경 중 흥미로운 개선사항
- Opus 4.5에는 기본적으로 높음으로 설정된 새로운 effort 매개변수가 추가됨
- 향상된 Computer use을 지원하며 , 특히 zoom을 제공해서 화면의 확대된 영역을 검사하도록 요청할 수 있는 도구를 제공함
- 이전 보조 턴의 사고 블록은 기본과 다르게 기본적으로 모델 컨텍스트에서 보존됨
평가의 어려움
- 최전선 LLM의 성능을 구분하기가 더 어려워짐
- SWE-bench Verified와 같은 벤치마크에서는 모델들이 한 자릿수 퍼센트 포인트 차이가 나는 걸 버여줌
- 그러나 이것이 실제 문제를 해결하려 했을 때, 어떤 결과를 가져올지? 어떤 차이가 있을지는 설명해주지 않음
- 일단 자전거 타는 펠리컨 그리기는 계속.