5P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • GPT‑5.2는 전문 지식 업무를 위한 가장 강력한 AI 모델 시리즈로, 코드 작성·이미지 인식·복잡한 프로젝트 수행 능력이 향상됨
  • GDPval 평가에서 44개 직종의 지식 업무 과제 중 70.9%에서 산업 전문가를 능가하거나 동률을 기록, 속도는 11배, 비용은 1% 미만 수준
  • SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , ARC‑AGI‑1 86.2% 등 주요 벤치마크에서 최고 성능을 달성
  • 긴 문맥 이해(256k 토큰) , 시각 정보 처리, 도구 활용(98.7%) 등에서 GPT‑5.1 대비 큰 개선을 보임
  • ChatGPT와 API에서 단계적으로 배포되며, 전문가용 생산성과 신뢰성 향상을 목표로 함

GPT‑5.2 개요

  • GPT‑5.2는 전문 지식 업무용 AI 모델 시리즈로, 스프레드시트 작성, 프레젠테이션 제작, 코드 작성, 이미지 인식, 장문 이해, 도구 사용, 복잡한 프로젝트 수행 능력을 강화
  • ChatGPT Enterprise 사용자들은 이미 하루 평균 40~60분, 주당 10시간 이상 절약하고 있으며, GPT‑5.2는 이 효율성을 더욱 확장
  • ChatGPT에서는 Instant, Thinking, Pro 세 가지 버전으로 제공되며, API에서는 개발자에게 즉시 제공

모델 성능

  • GPT‑5.2 Thinking은 GDPval 평가에서 전문가 수준 이상의 성능을 최초로 달성
    • 44개 직종의 지식 업무 과제 중 70.9%에서 전문가를 능가하거나 동률
    • 전문가 대비 11배 빠르고 비용은 1% 미만
  • 내부 평가에서 투자은행 분석용 스프레드시트 모델링 과제 점수가 GPT‑5.1 대비 9.3% 향상(59.1% → 68.4%)
  • SWE‑Bench Pro 55.6% , SWE‑Bench Verified 80% 로 소프트웨어 엔지니어링 성능 향상
    • 실제 코드 디버깅, 기능 구현, 리팩터링, 배포 작업에서 더 안정적 수행
  • 프런트엔드 개발과 3D UI 작업에서도 GPT‑5.1 대비 개선
  • 오류 응답률이 30% 감소해 환각(hallucination) 빈도 감소

긴 문맥 이해 및 시각 인식

  • OpenAI MRCRv2 평가에서 장문 문서 통합 이해 성능 최고 기록
    • 256k 토큰까지 거의 100% 정확도 달성
    • 보고서, 계약서, 논문 등 장문 문서 분석에 적합
  • /compact 엔드포인트와 호환되어 맥락 확장형 워크플로우 지원
  • 시각 인식 성능 향상으로 차트, 대시보드, UI 스크린샷 등에서 오류율 절반 수준으로 감소
    • 이미지 내 구성요소의 공간적 배치 이해 능력 강화

도구 활용 및 복합 작업

  • Tau2‑bench Telecom 98.7% 로 도구 사용 능력 최고 기록
  • 복수 단계의 고객 지원, 데이터 수집, 분석, 결과 생성 등 엔드투엔드 워크플로우 수행 능력 강화
    • 예시: 항공편 지연·환승·보상 요청 등 복합 고객 서비스 절차를 완전하게 처리

과학·수학·추론 능력

  • GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , ARC‑AGI‑2 52.9% 로 주요 학술 벤치마크 최고 기록
  • GPT‑5.2 Pro는 ARC‑AGI‑1에서 90%를 돌파, 비용 효율은 390배 향상
  • GPT‑5.2 Pro와 Thinking은 과학 연구 가속화에 활용 가능
    • 실제 연구에서 통계학 이론 증명을 제안하고 검증받은 사례 제시

ChatGPT 내 사용 경험

  • GPT‑5.2 Instant: 빠른 응답과 명확한 설명 제공, 일상적 학습·작업용
  • GPT‑5.2 Thinking: 코드 작성, 장문 요약, 수학·논리 문제 해결, 계획 수립 등 복잡한 작업에 적합
  • GPT‑5.2 Pro: 고난도 질문에 높은 신뢰도의 답변 제공, 오류율 감소

안전성 강화

  • GPT‑5.2는 GPT‑5의 Safe Completion 연구를 기반으로, 자살·정신건강·정서 의존 관련 대화 응답을 개선
    • GPT‑5.1 대비 부적절 응답 비율 감소
  • 연령 예측 모델을 도입해 18세 미만 사용자에게 민감 콘텐츠 접근 제한
  • ChatGPT의 과도한 거부(over‑refusal) 문제 개선 작업 진행 중

가격 및 제공 방식

  • ChatGPT 유료 플랜(Plus, Pro, Business, Enterprise)부터 단계적 배포
  • API에서는 gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro로 제공
  • 가격: 입력 100만 토큰당 $1.75, 출력 100만 토큰당 $14, 캐시 입력 90% 할인
    • GPT‑5.1보다 단가 높지만 토큰 효율성 향상으로 총비용 절감
  • GPT‑5.1은 3개월간 유지 후 단계적 종료 예정
  • Codex 최적화 버전은 추후 공개 예정

기술 파트너십

  • NVIDIAMicrosoft와 협력해 GPT‑5.2를 개발
    • Azure 데이터센터와 H100, H200, GB200‑NVL72 GPU 인프라를 활용
    • 대규모 학습 효율과 모델 지능 향상 지원

주요 벤치마크 요약

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2는 지능, 신뢰성, 생산성에서 전 세대 모델을 크게 능가하며, 전문가 수준의 실무 지원 AI로 자리매김함.

Hacker News 의견들
  • 최근 몇 달간 ChatGPT를 유료로 사용하며 코딩, 뉴스, 주식 분석, 일상 문제 해결 등 거의 모든 용도로 써왔음
    하지만 Gemini 3가 출시된 후 써보니 모든 사용 사례에서 훨씬 더 나은 결과를 줌
    특히 웹 검색 통합이 필요한 최신 정보 탐색에서 강점을 보였음. OCR도 훌륭해서 내 악필도 잘 인식함
    다만 앱 버그가 많고, 세션이 자주 끊기며, 사진 업로드 오류도 있음.
    가장 불만인 점은 모든 링크가 구글 검색을 거쳐야 해서 직접 사이트로 가려면 수정해야 함.
    전반적으로는 ChatGPT가 검색 통합력에서 밀려 따라잡기 어려울 것 같다는 결론임

    • “폴리시 문제만 있다”는 표현은 너무 약함. 하루에도 몇 번씩 스레드 전체가 날아가는 버그 때문에 욕이 나올 정도임
      중단만 해도 데이터가 사라지는 수준이라, 전형적인 Google식 미완성 제품 느낌임
      음성 모드 아이디어는 좋지만 자주 깨지고, 멋대로 질문을 반복함
    • 나는 정반대 경험을 했음. ChatGPT는 여러 번 검색하고 결과를 분석한 뒤 추가 검색까지 하는 반면, Gemini는 검색을 거의 안 함
      ChatGPT는 PDF나 스크린샷을 열어 OCR 입력으로 활용하지만 Gemini는 무시함
    • 링크가 구글 검색을 거치는 이유는 내부적으로 악성코드·피싱 검사를 하기 때문임
      하지만 요즘은 브라우저가 자체적으로 처리하므로 굳이 구글에 클릭 정보를 보낼 필요는 없음
      직접 링크로 수정해도 문제 없음
    • 내 경우엔 Gemini 3 Pro가 오히려 환각(hallucination) 이 심했음. 존재하지 않는 출처를 만들어내기도 함
      Opus 4.5는 품질이 더 좋지만 사용 제한이 심해서 여러 구독을 병행할까 고민 중임
    • Gemini의 음성 인식 품질이 너무 나빠서 사용할 수 없었음
      OCR보다 음성 기능을 더 많이 쓰는 입장이라 치명적임
      “검색 통합이 강점”이라는 주장도 이해가 안 됨. 최신 정보 검색에서 ChatGPT가 실제로 더 나빴던 예시가 궁금함
  • 블로그 공지에는 없지만 실제 컨텍스트 윈도우 크기가 40만 토큰임
    공식 문서에 명시되어 있음
    전체 컨텍스트 활용 능력도 개선됐다고 하니 기대됨
    Rust/CUDA 프로젝트에서 Codex 5.1을 쓰다가 Gemini 3로 옮겼는데, 처음엔 버그를 잘 잡아줘서 감탄했지만 곧 명령 무시, 출력 깨짐, 불투명한 추론 과정 때문에 미칠 뻔했음
    다시 Codex로 돌아오니 안정적이고 피드백도 잘 반영함. 이제 GPT‑5.2 xhigh 모드까지 나와서 마치 크리스마스 선물 받은 기분임

    • 40만 토큰은 이미 GPT‑5, 5.1, 5‑mini 등에도 있었음. 다만 긴 문맥 처리 성능이 개선됐다면 큰 의미가 있음
    • 나는 xhigh 모드가 high보다 오히려 결과가 나빠서 PEBKAC(사용자 실수) 인가 싶었음. 비교해본 적 있는지 궁금함
    • 요즘 댓글을 보면 진짜 후기인지 스폰서 홍보인지 구분이 안 됨
      예전처럼 솔직히 문제와 해결책을 논의하던 포럼 문화가 그립다는 생각임
  • 많은 개발자들이 한 세션에서 요리, 선물, 코딩 등 모든 주제를 섞어 쓰다가 이상한 답변을 받는 경우를 봤음
    LLM은 전체 대화 맥락을 계속 보내기 때문에 주제별로 새 채팅을 시작해야 함
    그렇지 않으면 “아내가 전역 변수에 대해 어떻게 생각하는지” 같은 이상한 답을 듣게 됨

    • 가끔 이런 생각이 듦. LLM의 내부 작동 원리를 모르는 사람에게 이 도구들이 얼마나 이상하게 느껴질까?
      Cursor나 ChatGPT 같은 앱은 아마 이해하기 어려울 것 같음
    • 나도 fast.ai 강좌를 듣고 VLLM 등 여러 모델을 직접 만져본 경험이 큰 도움이 됐음
      컨텍스트 윈도우 개념을 모르면 AI가 멍청하다고 느낄 수 있음. 이런 이유로 사람들이 AI를 과소평가하는 듯함
    • 어떤 맥락을 남겨야 하는지도 명확하지 않음. 비슷한 스타일의 텍스트를 넣었더니 오히려 성능이 떨어졌음
      또 모델이 A/B 테스트 중인지, reasoning 토큰을 제한하는지 알 수 없어 신뢰가 어렵다는 느낌임
    • ChatGPT의 “Reference chat history” 옵션이 기본 활성화되어 있어서 새 대화를 만들어도 이전 내용이 섞임
      완전히 분리하려면 이 옵션을 꺼야 함
    • LLM과 “연애 관계”에 빠진 사람들에 대한 팟캐스트를 들었는데, 단순히 컨텍스트를 리셋하면 완전히 낯선 존재로 돌아간다는 걸 모르는 듯했음
  • 메인보드 이미지에서 RAM, PCIe 슬롯, DisplayPort 위치가 전부 잘못되어 있음
    이미지 링크
    왜 이런 걸 홍보 이미지로 썼는지 의문임

    • GPT‑5.2의 비전 성능이 향상됐지만 완벽하지 않음을 보여주려는 의도였음. 완벽한 결과만 고르면 오히려 오해를 줄 수 있음
    • USB Type‑A 포트도 2개 쌍으로 쌓인 게 아니라 4개임
    • 기사 본문에도 “두 모델 모두 오류가 있지만 GPT‑5.2가 더 나은 이해를 보였다”고 명시되어 있음
    • 요즘 AI 커뮤니티 문화가 결과 검증 없이 생성물만 양산하는 경향이 있어서 이런 실수가 생긴다고 봄
    • 그래도 이미지 해상도가 2003년 폴더폰 수준이라 오류가 생길 만함
  • Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨
    벤치마크 링크
    중간·저추론 버전도 모두 개선되었지만, Gemini 3 Pro와 Grok 4.1 Fast Reasoning이 여전히 더 높음

    • Gemini 3 Pro Preview가 같은 테스트에서 96.8%라니 인상적임
    • 다른 사람이 Clues by Sam 퍼즐로 테스트했는데 GPT‑5 Pro가 이미 1위를 차지했음
    • Grok 4.1 reasoning 결과는 빠졌는지 궁금함
  • “자전거 타는 펠리컨” 테스트가 흥미로움
    이미지 예시

    • 변동성이 너무 커서 테스트 가치가 낮음. 10번 돌려봤는데 절반은 완벽한 결과였음
    • 아마 5.1 버전이 너무 단조롭다는 피드백을 반영한 듯함. POV‑Ray 버전에서도 같은 경험이 있었음
    • 점점 공기역학적으로 진화하는 걸 보니 AI가 똑똑해지는 느낌임
    • “이게 내가 신뢰하는 유일한 벤치마크”라는 농담이 나올 정도임
    • 하지만 같은 벤치마크를 너무 오래 쓰는 건 바람직하지 않음
  • ARC‑AGI‑2 점수 향상이 놀라움. 일반화 능력이 크게 개선된 듯함
    이전 모델들은 과적합된 느낌이었는데, 이제는 자기 수정(self‑correction) 이 잘 됨
    새로운 데이터센터나 대규모 모델 확장 없이 이 정도 개선이 가능하다면 미래가 기대됨

    • 나도 ARC‑AGI‑2 결과에 주목했음. 정말 큰 도약임
  • 이제 벤치마크보다 사용자 경험이 더 중요하다고 느낌
    내가 ChatGPT를 계속 구독하는 이유는 프로젝트별 채팅 정리 기능 덕분임
    하지만 모든 플랫폼이 공통적으로

    • 자신감 있게 거짓말
    • 프롬프트를 제대로 따르지 않음
    • 불확실성을 표현하지 않음
    • 불필요한 칭찬과 장황한 답변을 멈추지 않음
    • 출처 인용이 일관되지 않음
    • 원문을 봤는지 요약본을 봤는지 명확히 밝히지 않음
      이런 기본적인 사용성 문제를 해결해야 함
    • 객관적 지표를 벗어나면 측정의 타당성을 설득하기 어려워지지만, 측정 가능한 지표는 쉽게 조작될 수 있음
      그래서 벤치마크는 일종의 고양이와 쥐의 게임이 되어버림
  • r/Codex에서 불만 글이 검열되는 것 같아 여기서 솔직히 말함
    속도는 빨라졌지만 Opus 4.5보단 느리고, 5.1 대비 체감 개선이 거의 없음
    토큰 비용이 40%나 올랐는데 가치가 느껴지지 않음
    Gemini 3는 무료로 ChatGPT Pro 수준이고, Claude Code $100/월도 강력함
    OpenAI가 존재론적 위기를 맞고 있는 듯함

    • Gemini 2.5에서 3으로 갈 때도 큰 개선이 없었음. 전반적으로 실질적 진보가 정체된 느낌임
  • 지식 컷오프가 2025년 8월”이라는 점과 가격 인상은 새로운 사전학습(pretrain) 모델을 의미하는 듯함
    GPT‑5.1은 GPT‑4o와 같은 사전학습을 썼다고 알려져 있었음

    • 새로운 프리트레인은 비용이 막대하므로 단순한 0.1 버전 상승으로 끝나진 않을 것임
    • 혹은 5.1이 더 오래된 체크포인트이거나 양자화(quantization) 가 더 심했을 수도 있음
    • 아니면 그냥 같은 모델에 품질 낮은 데이터(slop) 를 한 번 더 먹인 걸 수도 있음