[GPT-5.1 thinking -> GPT-5.2 thinking]

  • 투자은행 스프레드시트 과제(내부): 59.1% → 68.4%

    • 3개 재무제표/LBO 스프레드시트 모델링 과제
  • SWE-Bench Pro(공개): 50.8% → 55.6%

    • 4개 언어에서 실제 저장소(repo) 패치 적용
  • OpenAI MRCRv2(바늘 8개, 128k–256k): 29.6% → 77.0%

    • 매우 긴 문서에서 정보를 찾아 재현
  • ScreenSpot Pro(Python 포함): 64.2% → 86.3%

    • UI 스크린샷을 이해하고 질문에 답변
  • ARC-AGI-2(검증됨): 17.6% → 52.9%

    • 어려운 추상적 추론 퍼즐(검증됨)