SWE-Bench-Pro daily benchmark(curated set) 에서 claude code 를 보면 흥미로운게 보임

4/10~4/20 구간에서 runtime 절반(653s→345s), tool call 절반(3.3K→1.8K), 토큰 −18% 줄었는데 pass rate는 오히려 +16pp 올라감. 네 축이 다 좋은 방향으로 동시에 움직이는 게 흔한 패턴이 아님

그 과정에서 터진 사고 3건이 4/23 postmortem인데 보면 전부 "토큰/latency 줄이려다" 생긴 거임

반면 codex(gpt-5.4-xhigh)는 같은 기간 숫자가 거의 안 움직임. pass rate 56% 근처 고정, 토큰/runtime/tool call도 claude code의 두 배 수준 그대로