# Simon Willison의 Claude 4.5 Opus 리뷰

> Clean Markdown view of GeekNews topic #24612. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24612](https://news.hada.io/topic?id=24612)
- GeekNews Markdown: [https://news.hada.io/topic/24612.md](https://news.hada.io/topic/24612.md)
- Type: news
- Author: [laeyoung](https://news.hada.io/@laeyoung)
- Published: 2025-11-26T09:05:50+09:00
- Updated: 2025-11-26T09:05:50+09:00
- Original source: [simonwillison.net](https://simonwillison.net/2025/Nov/24/claude-opus/)
- Points: 8
- Comments: 2

## Summary

Anthropic의 **Claude 4.5 Opus**는 가격을 대폭 낮추면서도 **Computer Use 기능과 컨텍스트 유지 능력**을 강화해, 실제 작업 흐름에서 더 유연하게 활용할 수 있는 모델로 진화했습니다. 하지만 Simon Willison이 지적하듯, 이제는 **SWE-bench 같은 벤치마크 점수만으로 모델의 우열을 가리기 어려운 시대**가 되었습니다. 수치보다 중요한 건 “이 모델이 내 문제를 얼마나 잘 풀어주는가”라는 체감 성능이죠. 개발자 입장에선, 결국 **LLM 평가의 기준을 다시 설계해야 할 시점**이 왔다는 점이 흥미롭게 다가옵니다.

## Topic Body

#### Claude Opus 4.5, 그리고 새로운 LLM 평가가 점점 더 어려워지는 이유  
  
가격은 매우 만족  
- 입력은 백만 달러당 5달러, 출력은 백만 달러당 25달러  
- 이전 Opus의 15달러/75달러보다 훨씬 저렴함  
- 또한 GPT-5.1 제품군(1.25달러/10달러) 및 Gemini 3 Pro(2달러/12달러, 또는 20만 토큰 이상 구매 시 4달러/18달러)와 비교해도 경쟁력이 있음  
  
Opus 4.5 변경 중 흥미로운 개선사항  
- Opus 4.5에는 기본적으로 높음으로 설정된 새로운 effort 매개변수가 추가됨  
- 향상된 Computer use을 지원하며 , 특히 zoom을 제공해서 화면의 확대된 영역을 검사하도록 요청할 수 있는 도구를 제공함  
- 이전 보조 턴의 사고 블록은 기본과 다르게 기본적으로 모델 컨텍스트에서 보존됨  
  
평가의 어려움  
- 최전선 LLM의 성능을 구분하기가 더 어려워짐  
- SWE-bench Verified와 같은 벤치마크에서는 모델들이 한 자릿수 퍼센트 포인트 차이가 나는 걸 버여줌  
- 그러나 이것이 실제 문제를 해결하려 했을 때, 어떤 결과를 가져올지? 어떤 차이가 있을지는 설명해주지 않음  
- 일단 [자전거 타는 펠리컨](https://simonwillison.net/tags/pelican-riding-a-bicycle/) 그리기는 계속.

## Comments



### Comment 46803

- Author: youknowone
- Created: 2025-11-26T10:40:10+09:00
- Points: 2

번역: https://rosettalens.com/s/ko/claude-opus

### Comment 46792

- Author: laeyoung
- Created: 2025-11-26T09:12:48+09:00
- Points: 2

Anthropic에서 [Opus 4.5 벤치마크 그래프](https://www.anthropic.com/_next/image?url=https%3A%2F%2Fwww-cdn.anthropic.com%2Fimages%2F4zrzovbb%2Fwebsite%2F7022a87aeb6eab1458d68412bc927306224ea9eb-3840x2160.png&w=3840&q=75)  
- 그냥 그리면 높이가 거의 비슷해서, 그래프의 Y축의 0-70 구간이 축약 되어 있습니다.
