# GPT‑5.2 공개

> Clean Markdown view of GeekNews topic #25011. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25011](https://news.hada.io/topic?id=25011)
- GeekNews Markdown: [https://news.hada.io/topic/25011.md](https://news.hada.io/topic/25011.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-12T09:38:19+09:00
- Updated: 2025-12-12T09:38:19+09:00
- Original source: [openai.com](https://openai.com/index/introducing-gpt-5-2/)
- Points: 5
- Comments: 1

## Summary

OpenAI의 GPT‑5.2는 **전문 지식 업무**를 위한 **차세대 AI 모델**로, 코드 작성과 장문 이해, 시각 정보 처리 등에서 GPT‑5.1 대비 대폭 향상된 성능을 보입니다. GDPval 평가에서 44개 직종 중 70.9%에서 전문가 수준을 달성했으며, 속도는 11배, 비용은 1% 미만으로 효율성을 극대화했습니다. 최대 256k 토큰의 긴 문맥 이해와 98.7%의 도구 활용 정확도를 통해 복합 워크플로우 자동화가 가능해졌습니다.

## Topic Body

- **GPT‑5.2**는 전문 지식 업무를 위한 **가장 강력한 AI 모델 시리즈**로, 코드 작성·이미지 인식·복잡한 프로젝트 수행 능력이 향상됨  
- **GDPval 평가**에서 44개 직종의 지식 업무 과제 중 70.9%에서 산업 전문가를 능가하거나 동률을 기록, 속도는 11배, 비용은 1% 미만 수준  
- **SWE‑Bench Pro 55.6%** , **GPQA Diamond 92.4%** , **ARC‑AGI‑1 86.2%** 등 주요 벤치마크에서 최고 성능을 달성  
- **긴 문맥 이해(256k 토큰)** , **시각 정보 처리**, **도구 활용(98.7%)** 등에서 GPT‑5.1 대비 큰 개선을 보임  
- ChatGPT와 API에서 단계적으로 배포되며, **전문가용 생산성과 신뢰성 향상**을 목표로 함  

---

### GPT‑5.2 개요
- GPT‑5.2는 **전문 지식 업무용 AI 모델 시리즈**로, 스프레드시트 작성, 프레젠테이션 제작, 코드 작성, 이미지 인식, 장문 이해, 도구 사용, 복잡한 프로젝트 수행 능력을 강화  
- ChatGPT Enterprise 사용자들은 이미 하루 평균 40~60분, 주당 10시간 이상 절약하고 있으며, GPT‑5.2는 이 효율성을 더욱 확장  
- ChatGPT에서는 **Instant**, **Thinking**, **Pro** 세 가지 버전으로 제공되며, API에서는 개발자에게 즉시 제공  

### 모델 성능
- **GPT‑5.2 Thinking**은 GDPval 평가에서 전문가 수준 이상의 성능을 최초로 달성  
  - 44개 직종의 지식 업무 과제 중 70.9%에서 전문가를 능가하거나 동률  
  - 전문가 대비 11배 빠르고 비용은 1% 미만  
- 내부 평가에서 투자은행 분석용 스프레드시트 모델링 과제 점수가 GPT‑5.1 대비 9.3% 향상(59.1% → 68.4%)  
- **SWE‑Bench Pro 55.6%** , **SWE‑Bench Verified 80%** 로 소프트웨어 엔지니어링 성능 향상  
  - 실제 코드 디버깅, 기능 구현, 리팩터링, 배포 작업에서 더 안정적 수행  
- 프런트엔드 개발과 3D UI 작업에서도 GPT‑5.1 대비 개선  
- 오류 응답률이 30% 감소해 **환각(hallucination)** 빈도 감소  

### 긴 문맥 이해 및 시각 인식
- **OpenAI MRCRv2** 평가에서 장문 문서 통합 이해 성능 최고 기록  
  - 256k 토큰까지 거의 100% 정확도 달성  
  - 보고서, 계약서, 논문 등 장문 문서 분석에 적합  
- `/compact` 엔드포인트와 호환되어 **맥락 확장형 워크플로우** 지원  
- 시각 인식 성능 향상으로 차트, 대시보드, UI 스크린샷 등에서 오류율 절반 수준으로 감소  
  - 이미지 내 구성요소의 **공간적 배치 이해** 능력 강화  

### 도구 활용 및 복합 작업
- **Tau2‑bench Telecom 98.7%** 로 도구 사용 능력 최고 기록  
- 복수 단계의 고객 지원, 데이터 수집, 분석, 결과 생성 등 **엔드투엔드 워크플로우** 수행 능력 강화  
  - 예시: 항공편 지연·환승·보상 요청 등 복합 고객 서비스 절차를 완전하게 처리  

### 과학·수학·추론 능력
- **GPQA Diamond 92.4%** , **FrontierMath Tier 1–3 40.3%** , **ARC‑AGI‑1 86.2%** , **ARC‑AGI‑2 52.9%** 로 주요 학술 벤치마크 최고 기록  
- GPT‑5.2 Pro는 ARC‑AGI‑1에서 90%를 돌파, 비용 효율은 390배 향상  
- GPT‑5.2 Pro와 Thinking은 **과학 연구 가속화**에 활용 가능  
  - 실제 연구에서 통계학 이론 증명을 제안하고 검증받은 사례 제시  

### ChatGPT 내 사용 경험
- **GPT‑5.2 Instant**: 빠른 응답과 명확한 설명 제공, 일상적 학습·작업용  
- **GPT‑5.2 Thinking**: 코드 작성, 장문 요약, 수학·논리 문제 해결, 계획 수립 등 복잡한 작업에 적합  
- **GPT‑5.2 Pro**: 고난도 질문에 높은 신뢰도의 답변 제공, 오류율 감소  

### 안전성 강화
- GPT‑5.2는 GPT‑5의 **Safe Completion 연구**를 기반으로, 자살·정신건강·정서 의존 관련 대화 응답을 개선  
  - GPT‑5.1 대비 부적절 응답 비율 감소  
- **연령 예측 모델**을 도입해 18세 미만 사용자에게 민감 콘텐츠 접근 제한  
- ChatGPT의 과도한 거부(over‑refusal) 문제 개선 작업 진행 중  

### 가격 및 제공 방식
- ChatGPT 유료 플랜(Plus, Pro, Business, Enterprise)부터 단계적 배포  
- API에서는 `gpt‑5.2`, `gpt‑5.2‑chat‑latest`, `gpt‑5.2‑pro`로 제공  
- 가격: 입력 100만 토큰당 **$1.75**, 출력 100만 토큰당 **$14**, 캐시 입력 90% 할인  
  - GPT‑5.1보다 단가 높지만 **토큰 효율성 향상으로 총비용 절감**  
- GPT‑5.1은 3개월간 유지 후 단계적 종료 예정  
- Codex 최적화 버전은 추후 공개 예정  

### 기술 파트너십
- **NVIDIA** 및 **Microsoft**와 협력해 GPT‑5.2를 개발  
  - Azure 데이터센터와 **H100, H200, GB200‑NVL72 GPU** 인프라를 활용  
  - 대규모 학습 효율과 모델 지능 향상 지원  

### 주요 벤치마크 요약
- **GDPval**: 70.9% (GPT‑5.1 38.8%)  
- **SWE‑Bench Verified**: 80.0%  
- **OpenAI MRCRv2 (256k)** : 77.0%  
- **CharXiv Reasoning (w/ Python)** : 88.7%  
- **Tau2‑bench Telecom**: 98.7%  
- **ARC‑AGI‑1 (Verified)** : 86.2%  
- **AIME 2025**: 100%  
- **FrontierMath Tier 1–3**: 40.3%  

GPT‑5.2는 **지능, 신뢰성, 생산성**에서 전 세대 모델을 크게 능가하며, **전문가 수준의 실무 지원 AI**로 자리매김함.

## Comments



### Comment 47629

- Author: neo
- Created: 2025-12-12T09:38:19+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46234788) 
- 최근 몇 달간 **ChatGPT**를 유료로 사용하며 코딩, 뉴스, 주식 분석, 일상 문제 해결 등 거의 모든 용도로 써왔음  
  하지만 **Gemini 3**가 출시된 후 써보니 모든 사용 사례에서 훨씬 더 나은 결과를 줌  
  특히 **웹 검색 통합**이 필요한 최신 정보 탐색에서 강점을 보였음. OCR도 훌륭해서 내 악필도 잘 인식함  
  다만 앱 버그가 많고, 세션이 자주 끊기며, 사진 업로드 오류도 있음.  
  가장 불만인 점은 모든 링크가 구글 검색을 거쳐야 해서 직접 사이트로 가려면 수정해야 함.  
  전반적으로는 ChatGPT가 **검색 통합력**에서 밀려 따라잡기 어려울 것 같다는 결론임
  - “폴리시 문제만 있다”는 표현은 너무 약함. 하루에도 몇 번씩 **스레드 전체가 날아가는 버그** 때문에 욕이 나올 정도임  
    중단만 해도 데이터가 사라지는 수준이라, 전형적인 **Google식 미완성 제품** 느낌임  
    음성 모드 아이디어는 좋지만 자주 깨지고, 멋대로 질문을 반복함
  - 나는 정반대 경험을 했음. ChatGPT는 여러 번 검색하고 결과를 분석한 뒤 추가 검색까지 하는 반면, Gemini는 검색을 거의 안 함  
    ChatGPT는 PDF나 스크린샷을 열어 **OCR 입력**으로 활용하지만 Gemini는 무시함
  - 링크가 구글 검색을 거치는 이유는 내부적으로 **악성코드·피싱 검사**를 하기 때문임  
    하지만 요즘은 브라우저가 자체적으로 처리하므로 굳이 구글에 클릭 정보를 보낼 필요는 없음  
    직접 링크로 수정해도 문제 없음
  - 내 경우엔 Gemini 3 Pro가 오히려 **환각(hallucination)** 이 심했음. 존재하지 않는 출처를 만들어내기도 함  
    Opus 4.5는 품질이 더 좋지만 사용 제한이 심해서 여러 구독을 병행할까 고민 중임
  - Gemini의 **음성 인식 품질**이 너무 나빠서 사용할 수 없었음  
    OCR보다 음성 기능을 더 많이 쓰는 입장이라 치명적임  
    “검색 통합이 강점”이라는 주장도 이해가 안 됨. 최신 정보 검색에서 ChatGPT가 실제로 더 나빴던 예시가 궁금함  

- 블로그 공지에는 없지만 실제 **컨텍스트 윈도우 크기**가 40만 토큰임  
  [공식 문서](https://platform.openai.com/docs/models/gpt-5.2)에 명시되어 있음  
  전체 컨텍스트 활용 능력도 개선됐다고 하니 기대됨  
  Rust/CUDA 프로젝트에서 Codex 5.1을 쓰다가 Gemini 3로 옮겼는데, 처음엔 버그를 잘 잡아줘서 감탄했지만 곧 **명령 무시, 출력 깨짐, 불투명한 추론 과정** 때문에 미칠 뻔했음  
  다시 Codex로 돌아오니 안정적이고 피드백도 잘 반영함. 이제 GPT‑5.2 xhigh 모드까지 나와서 마치 크리스마스 선물 받은 기분임
  - 40만 토큰은 이미 GPT‑5, 5.1, 5‑mini 등에도 있었음. 다만 **긴 문맥 처리 성능**이 개선됐다면 큰 의미가 있음
  - 나는 xhigh 모드가 high보다 오히려 결과가 나빠서 **PEBKAC(사용자 실수)** 인가 싶었음. 비교해본 적 있는지 궁금함
  - 요즘 댓글을 보면 진짜 후기인지 **스폰서 홍보**인지 구분이 안 됨  
    예전처럼 솔직히 문제와 해결책을 논의하던 포럼 문화가 그립다는 생각임  

- 많은 개발자들이 한 세션에서 요리, 선물, 코딩 등 **모든 주제**를 섞어 쓰다가 이상한 답변을 받는 경우를 봤음  
  LLM은 전체 대화 맥락을 계속 보내기 때문에 주제별로 새 채팅을 시작해야 함  
  그렇지 않으면 “아내가 전역 변수에 대해 어떻게 생각하는지” 같은 이상한 답을 듣게 됨
  - 가끔 이런 생각이 듦. **LLM의 내부 작동 원리**를 모르는 사람에게 이 도구들이 얼마나 이상하게 느껴질까?  
    Cursor나 ChatGPT 같은 앱은 아마 이해하기 어려울 것 같음
  - 나도 fast.ai 강좌를 듣고 VLLM 등 여러 모델을 직접 만져본 경험이 큰 도움이 됐음  
    **컨텍스트 윈도우 개념**을 모르면 AI가 멍청하다고 느낄 수 있음. 이런 이유로 사람들이 AI를 과소평가하는 듯함
  - 어떤 맥락을 남겨야 하는지도 명확하지 않음. 비슷한 스타일의 텍스트를 넣었더니 오히려 성능이 떨어졌음  
    또 모델이 **A/B 테스트** 중인지, reasoning 토큰을 제한하는지 알 수 없어 신뢰가 어렵다는 느낌임
  - ChatGPT의 “**Reference chat history**” 옵션이 기본 활성화되어 있어서 새 대화를 만들어도 이전 내용이 섞임  
    완전히 분리하려면 이 옵션을 꺼야 함
  - LLM과 “**연애 관계**”에 빠진 사람들에 대한 팟캐스트를 들었는데, 단순히 컨텍스트를 리셋하면 완전히 낯선 존재로 돌아간다는 걸 모르는 듯했음  

- 메인보드 이미지에서 RAM, PCIe 슬롯, DisplayPort 위치가 전부 잘못되어 있음  
  [이미지 링크](https://images.ctfassets.net/kftzwdyauwt9/6lyujQxhZDnOMruN3ft1oP/2ee4e2a98c4725fab4e9eada8d38b6ad/image_8.png?w=1920&q=90&fm=webp)  
  왜 이런 걸 홍보 이미지로 썼는지 의문임
  - GPT‑5.2의 **비전 성능이 향상됐지만 완벽하지 않음**을 보여주려는 의도였음. 완벽한 결과만 고르면 오히려 오해를 줄 수 있음
  - USB Type‑A 포트도 2개 쌍으로 쌓인 게 아니라 4개임
  - 기사 본문에도 “두 모델 모두 오류가 있지만 GPT‑5.2가 더 나은 이해를 보였다”고 명시되어 있음
  - 요즘 **AI 커뮤니티 문화**가 결과 검증 없이 생성물만 양산하는 경향이 있어서 이런 실수가 생긴다고 봄
  - 그래도 이미지 해상도가 2003년 폴더폰 수준이라 오류가 생길 만함  

- **Extended NYT Connections 벤치마크**에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨  
  [벤치마크 링크](https://github.com/lechmazur/nyt-connections/)  
  중간·저추론 버전도 모두 개선되었지만, Gemini 3 Pro와 Grok 4.1 Fast Reasoning이 여전히 더 높음
  - Gemini 3 Pro Preview가 같은 테스트에서 96.8%라니 인상적임
  - 다른 사람이 [Clues by Sam](https://www.nicksypteras.com/blog/cbs-benchmark.html) 퍼즐로 테스트했는데 GPT‑5 Pro가 이미 1위를 차지했음
  - 왜 **Grok 4.1 reasoning** 결과는 빠졌는지 궁금함  

- “자전거 타는 펠리컨” 테스트가 흥미로움  
  [이미지 예시](https://gist.github.com/simonw/c31d7afc95fe6b40506a9562b5e83bcc?permalink_comment_id=5901194#gistcomment-5901194)
  - 변동성이 너무 커서 테스트 가치가 낮음. 10번 돌려봤는데 절반은 완벽한 결과였음
  - 아마 5.1 버전이 너무 단조롭다는 피드백을 반영한 듯함. POV‑Ray 버전에서도 같은 경험이 있었음
  - 점점 **공기역학적으로 진화**하는 걸 보니 AI가 똑똑해지는 느낌임
  - “이게 내가 신뢰하는 유일한 벤치마크”라는 농담이 나올 정도임
  - 하지만 같은 벤치마크를 너무 오래 쓰는 건 바람직하지 않음  

- **ARC‑AGI‑2 점수 향상**이 놀라움. 일반화 능력이 크게 개선된 듯함  
  이전 모델들은 과적합된 느낌이었는데, 이제는 **자기 수정(self‑correction)** 이 잘 됨  
  새로운 데이터센터나 대규모 모델 확장 없이 이 정도 개선이 가능하다면 미래가 기대됨  
  - 나도 ARC‑AGI‑2 결과에 주목했음. 정말 큰 도약임  

- 이제 벤치마크보다 **사용자 경험**이 더 중요하다고 느낌  
  내가 ChatGPT를 계속 구독하는 이유는 **프로젝트별 채팅 정리 기능** 덕분임  
  하지만 모든 플랫폼이 공통적으로  
  * 자신감 있게 **거짓말**함  
  * 프롬프트를 제대로 따르지 않음  
  * 불확실성을 표현하지 않음  
  * 불필요한 칭찬과 장황한 답변을 멈추지 않음  
  * 출처 인용이 일관되지 않음  
  * 원문을 봤는지 요약본을 봤는지 명확히 밝히지 않음  
  이런 기본적인 사용성 문제를 해결해야 함
  - 객관적 지표를 벗어나면 측정의 타당성을 설득하기 어려워지지만, **측정 가능한 지표는 쉽게 조작**될 수 있음  
    그래서 벤치마크는 일종의 **고양이와 쥐의 게임**이 되어버림  

- r/Codex에서 불만 글이 검열되는 것 같아 여기서 솔직히 말함  
  속도는 빨라졌지만 Opus 4.5보단 느리고, 5.1 대비 **체감 개선이 거의 없음**  
  토큰 비용이 40%나 올랐는데 가치가 느껴지지 않음  
  Gemini 3는 무료로 ChatGPT Pro 수준이고, Claude Code $100/월도 강력함  
  OpenAI가 **존재론적 위기**를 맞고 있는 듯함
  - Gemini 2.5에서 3으로 갈 때도 큰 개선이 없었음. 전반적으로 **실질적 진보**가 정체된 느낌임  

- “**지식 컷오프가 2025년 8월**”이라는 점과 가격 인상은 새로운 **사전학습(pretrain)** 모델을 의미하는 듯함  
  GPT‑5.1은 GPT‑4o와 같은 사전학습을 썼다고 알려져 있었음
  - 새로운 프리트레인은 비용이 막대하므로 단순한 0.1 버전 상승으로 끝나진 않을 것임
  - 혹은 5.1이 더 오래된 체크포인트이거나 **양자화(quantization)** 가 더 심했을 수도 있음
  - 아니면 그냥 같은 모델에 **품질 낮은 데이터(slop)** 를 한 번 더 먹인 걸 수도 있음
