GPT-5 공개

코딩 (SWE-bench) 쪽만 보면 74.9%(thinking), 52.8%(without thinking)인데, Claude는 74.5%(Opus 4.1), 72.5%(Opus 4.0), 62.3%(Sonnet 3.7)이었습니다.

Thinking mode 안 쓰면, Sonnet보다 나쁘고 써도 Opus 4.1보다 아주 약간 더 좋네요.