# GPT-5.3-Codex 공개

> Clean Markdown view of GeekNews topic #26434. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26434](https://news.hada.io/topic?id=26434)
- GeekNews Markdown: [https://news.hada.io/topic/26434.md](https://news.hada.io/topic/26434.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-02-06T06:24:14+09:00
- Updated: 2026-02-06T06:24:14+09:00
- Original source: [openai.com](https://openai.com/index/introducing-gpt-5-3-codex/)
- Points: 7
- Comments: 2

## Summary

**GPT‑5.3‑Codex**는 GPT‑5.2‑Codex의 코딩 성능과 GPT‑5.2의 추론·전문 지식 역량을 결합해 **25% 더 빠른 속도**로 작동하며, 장기 실행 작업과 실시간 협업을 지원하도록 설계되었습니다. 초기 버전이 자체 학습·배포 과정에 직접 참여한 **자기 개발 참여 모델**로, SWE‑Bench Pro와 OSWorld 등 주요 벤치마크에서 최고 성능을 기록했습니다. 코드 작성에 그치지 않고 프레젠테이션, 데이터 분석 등 **소프트웨어 생명주기 전반의 지식 노동**을 수행하며, 개발자와 전문가의 협업 방식을 근본적으로 확장합니다.

## Topic Body

- GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 **추론·전문 지식**을 한 모델로 결합, **25% 더 빠른 속도** 제공  
- Codex의 에이전틱 작업 범위를 **장기 실행 작업**까지 확장하고, 작업 중간에도 방향을 바꾸고 피드백을 반영하는 **실시간 상호작용 협업**을 Codex 앱에 통합  
- 자체 학습 과정의 디버깅, 배포 관리, 평가 진단에 초기 버전이 직접 활용된 최초의 **자기 개발 참여 모델**  
- **SWE-Bench Pro**, Terminal-Bench 2.0, OSWorld 등 주요 벤치마크에서 업계 최고 성능을 기록하며, 이전 모델보다 적은 토큰으로 동작  
- 코드 작성을 넘어 프레젠테이션, 스프레드시트, 데이터 분석 등 **소프트웨어 생명주기 전반의 지식 노동**을 지원  
  
---  
### 개요  
- GPT-5.3-Codex는 “가장 역량이 높은 에이전틱 코딩 모델”  
- GPT-5.2-Codex의 프런티어 코딩 성능과 GPT-5.2의 추론·전문 지식 역량을 한 모델로 결합, 속도 25% 향상  
- 리서치·도구 사용·복잡 실행이 포함된 **장기 작업을 수행하도록 설계**, 작업 중에도 컨텍스트를 잃지 않고 조율 가능  
- 초기 버전을 사용해 **자기 학습·배포·평가 진단**에 관여하며 **“스스로의 개발을 가속”한 첫 모델**  
- Codex의 역할을 “코드 작성·리뷰”에서 “컴퓨터에서 개발자·전문가가 하는 거의 모든 작업”으로 확대  
  
### 프론티어 에이전틱 역량  
- ## 코딩 성능  
  - **SWE-Bench Pro**(실제 소프트웨어 엔지니어링 평가)에서 최고 성능 달성, 이 벤치마크는 Python만 테스트하는 SWE-Bench Verified와 달리 **4개 언어**를 포괄하며 오염 저항성이 높고 산업 연관성이 큼  
  - **Terminal-Bench 2.0**에서도 이전 최고 성능을 크게 초과, 코딩 에이전트에 필요한 터미널 기술 측정  
  - 이전 모델 대비 **더 적은 토큰**으로 동일 작업 수행 가능  
- ## 웹 개발  
  - 프론티어 코딩 역량, 미적 감각 개선, 압축 기술의 결합으로 **복잡한 게임과 앱**을 며칠에 걸쳐 처음부터 구축 가능  
  - 웹 개발 및 **장기 에이전틱 역량 테스트**를 위해 레이싱 게임과 다이빙 게임 두 가지를 제작해 봄   
    - 레이싱 게임: 다양한 레이서, 8개 맵, 스페이스바로 사용하는 아이템 포함  
    - 다이빙 게임: 다양한 산호초 탐험, 물고기 도감 수집, 산소·수압·위험 요소 관리  
  - "develop web game" 스킬과 "fix the bug", "improve the game" 같은 **사전 설정된 범용 후속 프롬프트**를 사용해 수백만 토큰에 걸쳐 자율적으로 반복 개선  
  - 일상적인 웹사이트 제작 시 GPT-5.2-Codex 대비 사용자 의도를 더 잘 이해하며, 단순하거나 불충분한 프롬프트에도 **더 많은 기능과 합리적인 기본값**을 자동 적용  
  - 랜딩 페이지 비교 예시: GPT-5.3-Codex는 연간 플랜을 할인된 월간 가격으로 자동 표시하고, **3개의 사용자 인용이 포함된 자동 전환 추천 캐러셀**을 생성해 더 완성도 높은 결과물 제공  
- ## 코딩 이외의 역량  
  - 소프트웨어 엔지니어, 디자이너, 프로덕트 매니저, 데이터 사이언티스트가 수행하는 디버깅, 배포, 모니터링, PRD 작성, 카피 편집, 사용자 리서치, 테스트, 메트릭 분석 등 **소프트웨어 생명주기 전반** 지원  
  - 슬라이드 덱 제작, 시트 데이터 분석 등 **소프트웨어 외 영역까지 확장**  
  - **GDPval**(44개 직업군의 잘 정의된 지식 노동 과제 측정 평가)에서 GPT-5.2와 동등한 70.9% 달성  
    - 프레젠테이션, 스프레드시트 등 실제 업무 산출물 포함  
  - 재무 자문 슬라이드, 소매 교육 문서, NPV 분석 스프레드시트, 패션 프레젠테이션 PDF 등 다양한 산출물 예시 제시  
  - **OSWorld-Verified**(시각적 데스크톱 환경에서 생산성 과제 수행하는 에이전틱 컴퓨터 사용 벤치마크)에서 64.7% 달성, 이전 GPT 모델(38.2%) 대비 큰 폭 상승  
    - 인간 점수는 약 72%  
  
### 인터랙티브 협업자  
- 모델 역량이 강화됨에 따라, 에이전트가 할 수 있는 것보다 **인간이 병렬로 작업하는 다수의 에이전트를 얼마나 쉽게 지시·감독할 수 있는가**로 핵심 과제가 이동  
- Codex 앱이 에이전트 관리와 지시를 용이하게 하며, GPT-5.3-Codex에서 **더 높은 상호작용성** 제공  
- 작업 중 주요 결정과 진행 상황을 **빈번하게 업데이트**하여 사용자가 최종 결과를 기다리지 않고 실시간으로 질문, 접근 방식 논의, 방향 조정 가능  
- 자신이 하고 있는 작업을 설명하고, 피드백에 응답하며, 처음부터 끝까지 사용자를 **루프에 포함**  
- 설정 경로: Settings > General > **Follow-up behavior**에서 모델 작업 중 스티어링 활성화  
  
### Codex를 활용한 GPT-5.3-Codex 학습 및 배포  
- OpenAI 전체에 걸친 수개월~수년간의 연구 프로젝트 위에 최근의 빠른 Codex 개선이 구축됨  
- OpenAI의 많은 연구자와 엔지니어가 현재 업무 방식이 **2개월 전과 근본적으로 다르다**고 표현  
- 초기 버전의 GPT-5.3-Codex도 뛰어난 역량을 보여, 팀이 이 초기 버전을 활용해 이후 버전의 학습 개선과 배포를 지원  
- ## 연구팀 활용 사례  
  - 이번 릴리스의 **학습 런 모니터링 및 디버깅**에 Codex 사용  
  - 인프라 문제 디버깅을 넘어 학습 과정 전반의 패턴 추적, 상호작용 품질에 대한 심층 분석, 수정 제안, 이전 모델과의 행동 차이를 정밀하게 파악하기 위한 **리치 애플리케이션 구축**  
- ## 엔지니어링팀 활용 사례  
  - GPT-5.3-Codex용 **하네스 최적화 및 적응**에 Codex 활용  
  - 사용자에게 영향을 주는 이상한 에지 케이스 발생 시, Codex로 **컨텍스트 렌더링 버그 식별**과 낮은 캐시 적중률의 근본 원인 분석  
  - 출시 기간 동안 트래픽 급증에 대응해 **GPU 클러스터 동적 스케일링** 및 지연 시간 안정화에 지속 활용  
- ## 알파 테스트 활용 사례  
  - 한 연구자가 GPT-5.3-Codex가 턴당 얼마나 많은 추가 작업을 수행하는지와 생산성 차이를 이해하고자 함  
  - GPT-5.3-Codex가 명확화 질문 빈도, 긍정·부정 응답, 작업 진행도를 추정하는 **간단한 정규식 분류기** 여러 개를 고안하고 전체 세션 로그에 대규모로 실행 후 결론 보고서 생성  
  - Codex로 구축하는 사람들의 만족도가 더 높았으며, 에이전트가 의도를 더 잘 이해하고 **턴당 더 많은 진행**을 보이며 명확화 질문 감소  
- ## 데이터 파이프라인 구축  
  - 알파 테스트 데이터가 이전 모델과 매우 달라 **비정상적이고 반직관적인 결과** 다수 발생  
  - 데이터 사이언티스트가 GPT-5.3-Codex와 함께 새로운 데이터 파이프라인을 구축하고, 표준 대시보드 도구보다 **훨씬 풍부한 시각화** 수행  
  - Codex와 함께 결과를 공동 분석하여, 수천 개의 데이터 포인트에 대한 핵심 인사이트를 **3분 이내에 요약**  
  
### 사이버 보안 프론티어 확보  
- 최근 수개월간 사이버보안 과제에서의 모델 성능이 의미 있게 향상, 개발자와 보안 전문가 모두에게 혜택  
- 이와 병행하여 방어적 사용과 광범위한 생태계 회복력을 지원하기 위한 **강화된 사이버 보안 안전장치** 준비  
- **Preparedness Framework** 하에서 사이버보안 관련 과제에 대해 **High 등급**으로 분류된 최초의 모델이자, 소프트웨어 취약점 식별을 직접 학습한 최초의 모델  
- 종단 간 사이버 공격 자동화가 가능하다는 확정적 증거는 없으나, **예방적 접근**을 취하며 지금까지 가장 포괄적인 사이버보안 안전 스택 배포  
  - 안전 학습, 자동화 모니터링, 고급 기능에 대한 신뢰 기반 접근, 위협 인텔리전스를 포함한 집행 파이프라인  
- 사이버보안의 본질적 **이중 용도** 특성을 고려해, 방어자의 취약점 발견·수정 역량을 가속하면서 오용을 지연시키는 증거 기반 반복적 접근 채택  
- ## 방어 연구 및 생태계 보호 프로그램  
  - **Trusted Access for Cyber** 파일럿 프로그램 출시, 사이버 방어 연구 가속 목적  
  - 보안 연구 에이전트 **Aardvark**의 비공개 베타 확대, Codex Security 제품군의 첫 번째 제공물  
  - 오픈소스 메인테이너와 협력하여 널리 사용되는 프로젝트(예: **Next.js**)에 무료 코드베이스 스캐닝 제공  
    - 보안 연구자가 Codex를 사용해 지난 주 공개된 취약점(CVE-2025-59471, CVE-2025-59472) 발견  
  - 2023년 출시된 100만 달러 규모 사이버보안 보조금 프로그램을 기반으로, 가장 강력한 모델을 활용한 사이버 방어 가속을 위해 **1,000만 달러 API 크레딧** 추가 투자  
    - 특히 오픈소스 소프트웨어 및 핵심 인프라 시스템 대상  
    - 선의의 보안 연구에 참여하는 조직은 **Cybersecurity Grant Program**을 통해 API 크레딧 및 지원 신청 가능  
  
### 가용성 및 세부사항  
- GPT-5.3-Codex는 **유료 ChatGPT 플랜**에서 사용 가능하며, Codex가 지원되는 모든 곳(앱, CLI, IDE 확장, 웹)에서 이용 가능  
- API 접근은 안전하게 활성화하기 위해 준비 중  
- 인프라 및 추론 스택 개선으로 Codex 사용자 대상 **25% 빠른 속도**로 운영, 더 빠른 상호작용과 결과 제공  
- **NVIDIA GB200 NVL72 시스템**에서 공동 설계, 학습, 서빙  
  
### 향후 방향  
- Codex가 코드 작성을 넘어 코드를 도구로 사용해 **컴퓨터를 조작하고 작업을 처음부터 끝까지 완료**하는 방향으로 이동  
- 코딩 에이전트의 프론티어를 확장함으로써 소프트웨어 구축·배포뿐 아니라 연구, 분석, 복잡한 과제 실행 등 **더 광범위한 지식 노동** 영역까지 해제  
- 최고의 코딩 에이전트에서 출발해, **컴퓨터 위의 범용 협업자**로 발전하며 구축 가능한 대상과 구축할 수 있는 사람의 범위를 확장  
  
### Appendix: 벤치마크 수치  
- 모든 평가는 xhigh reasoning effort로 실행함  
- **SWE-Bench Pro(Public)**: GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%  
- **Terminal-Bench 2.0**: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%  
- **OSWorld-Verified**: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%  
- **GDPval(승리 또는 동점)**: GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)  
- **Cybersecurity Capture The Flag Challenges**: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%  
- **SWE-Lancer IC Diamond**: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

## Comments



### Comment 50694

- Author: treestae
- Created: 2026-02-06T09:11:53+09:00
- Points: 2

옛날에는 클로드 쪽을 선호했는데, 최근에는 코덱스가 더 맘에 들더군요. iOS와 AOS처럼 상호보완적으로 발전하길 기대합니다.

### Comment 50689

- Author: neo
- Created: 2026-02-06T06:24:14+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46902638) 
- GPT‑5.3 Codex와 Opus 4.6이 **철학적으로 다른 방향**으로 발전하고 있음이 흥미로움  
  Codex는 인간이 중간에 개입하며 함께 작업하는 **인터랙티브 협업자**로 설계된 반면, Opus는 더 자율적이고 계획적인 시스템으로 인간의 개입을 최소화함  
  이는 실제 개발자들이 LLM 기반 코딩을 바라보는 두 가지 관점 — 인간 중심 제어 vs 완전 위임 — 을 반영하는 듯함  
  앞으로 모델들이 이런 철학적 분화를 따라 최적화될지, 혹은 새로운 접근들이 등장할지 궁금함
  - UX 관점에서는 오히려 반대처럼 느껴짐  
    Codex가 답을 주기 전에 훨씬 오래 **생각하는 경향**이 있음
  - 나는 Codex 접근법이 지속될 것이라 확신함  
    인간이 루프 안에 있으면 LLM의 문제를 대부분 피할 수 있고, 작은 코드 단위로 검토하는 방식이 효율적임  
    Codex가 반복적인 작업을 처리해주면 개발자는 **핵심 로직**에 집중할 수 있음  
    완전 자율형 접근은 코드 품질이 장기적으로 떨어지므로 대규모 코드베이스에는 부적합함
  - 실제로는 Codex가 처음엔 웹앱 형태로 나와 **상호작용이 거의 없었음**  
    요청을 던지고 컨테이너 환경에서 자동 실행되며, 이후 채팅으로만 후속 조치가 가능했음
  - 두 모델이 서로의 영역으로 **수렴**하는 느낌임  
    Codex는 점점 더 자율적이 되고, Opus는 협업적이 되어가는 듯함  
    결국 상황에 따라 두 접근 모두 유용하게 쓰일 가능성이 큼
  - Codex가 Opus보다 더 많이 **사고하는 모델**로 느껴짐  
    그래서 5.2 버전이 Opus 4.5보다 더 안정적이었음

- Anthropic이 GPT‑5.3‑Codex와의 비교를 피하려고 **서둘러 Opus 4.6을 공개**한 듯함  
  Terminal‑Bench 2.0 점수는 Opus 4.6이 65.4, GPT‑5.3‑Codex가 77.3임
  - AI 벤치마크는 실제 경험과 잘 맞지 않음  
    그래도 Codex 5.2는 복잡한 작업에서 가장 뛰어났고, 5.3을 **기대 중**임
  - 같은 날 두 개의 **최상위 코딩 모델**이 공개된 게 놀라움
  - 테스트가 xhigh reasoning 모드에서 진행되어 **비용이 두 배**였음  
    GPT‑5.2 Codex는 $3244, Claude Opus 4.5는 $1485 수준
  - Codex가 Terminal Bench에 **오버핏**된 것 같음  
    ARC AGI 2 결과를 보면 일반화는 부족해 보임
  - 내 경험상 GPT 계열이 Claude보다 **에이전트형 코딩**에 훨씬 강했음  
    Claude가 코딩에서 우위라는 주장에는 의문이 있음

- GPT‑5.3‑Codex가 **자기 자신을 개발에 활용한 첫 모델**이라는 점이 인상적임  
  Codex 팀이 초기 버전으로 자체 학습 파이프라인을 디버깅했다고 함  
  Claude Code가 성장한 이유도 이런 **dogfooding 문화** 덕분이라 생각함
  - [AI‑2027 프로젝트](https://ai-2027.com/)의 연구자들이 예측한 방향과 크게 다르지 않음
  - 모델이 **자기 개선의 초기 단계**에 들어선 것 같음  
    이제 ‘점진적 발전(soft take‑off)’이 가능할지 다시 생각하게 됨

- GPT‑5.3‑Codex가 **사이버보안 관련 작업에서 고성능(high capability)** 모델로 분류됨  
  취약점 탐지를 직접 학습했지만, 완전한 공격 자동화는 아직 증거가 없음  
  다만 보안 프레임워크는 구식이라 생각함  
  앞으로는 Codex가 작성한 코드 자체가 보안 위협의 **새로운 공격 표면**이 될 가능성이 큼  
  Codex는 기본적으로 **안전한 코드**를 생성하도록 설계되어야 함
  - “high‑capability”가 박사급 전문가 팀보다 강한 주장인지 궁금함  
    관련 기사: [NBC News 보도](https://www.nbcnews.com/tech/tech-news/openai-releases-chatgpt-5-rcna223265)
  - OpenAI가 또다시 **AGI에 근접했다는 인상**을 주려는 전형적인 전략 같음  
    Anthropic과 마찬가지로 ‘안전 연구’라는 포장 아래 기술력을 과시하는 느낌임
  - 요즘 **vibe‑coded 프로젝트**들이 API 키를 웹페이지에 그대로 노출한다는 농담이 있음  
    이런 실수가 계속될지 궁금함
  - “보안 강화”라더니 결국 **ACL 추가와 정규식 업데이트** 수준일지도 모름

- 예전엔 AI 연구소들이 **동시 발표를 피하려고 조율**했는데,  
  이제는 30분 간격으로 경쟁적으로 발표함
  - 이제 완전히 **치열한 경쟁 구도**로 바뀌었음  
    Demis는 정치 싸움엔 약하지만 성능으로 승부할 듯  
    Elon, Sam, Dario는 이미 **정치적 수 싸움**에 능함  
    2026년은 AI 업계의 드라마틱한 해가 될 것 같음
  - 중국 춘절 시기에 맞춰 **로컬 모델들과 경쟁**하려는 일정 조정도 있음
  - 이런 경쟁은 GPT‑4 시절부터 이어져 왔음  
    OpenAI의 10시 발표에 맞춰 Anthropic과 Google이 **맞불 런칭**을 했었음
  - 이런 조율이 **카르텔 행위**로 불법일 수도 있지 않을까 하는 의문이 있음

- GPT‑5.3‑Codex가 **웹게임을 자율적으로 개선**했다는 발표를 보고 흥미로웠음  
  하지만 비교 실험의 **프롬프트 수나 토큰 수**가 공개되지 않아 아쉬움  
  예전에 내가 만든 [Factorio 웹 클론](https://factory-gpt.vercel.app/)과 비교해보고 싶음
  - 그 데모가 정말 멋짐  
    이런 식으로 모델을 활용하는 줄 몰랐음

- 몇 년째 “AI로 **생산성 100배 향상**”이라는 말을 듣고 있음  
  그런데 실제로 LLM이 주도적으로 만든, **새롭고 신뢰할 만한 프로그램**이 있는지 궁금함
  - 1930년대 계산기 도입 때도 회계직이 사라질 거라 했지만 오히려 **전문화**되었음  
    LLM도 기존 문제 해결을 더 빠르게 만들어줄 뿐, 완전히 새로운 문제를 푸는 건 아님  
    예를 들어 UI 카드 배열 문제에서 Gemini가 **극좌표 기반 접근법**을 제안해줘서 큰 도움을 받았음  
    100배는 아니어도 2배의 생산성 향상은 체감함  
    관련 스레드: [vibe coding 사례](https://news.ycombinator.com/item?id=45205232)
  - 대부분의 개발자는 **새로운 문제**보다 기존 문제를 반복 해결함  
    그래서 “이미 해결된 문제”라는 비판은 큰 의미가 없음
  - 오픈소스로 공개된 **대형 게임 프로젝트(OpenGTA, OpenFIFA 등)** 가 나오면 좋겠음
  - Opus 4.5가 단순한 git 문제를 다섯 번 시도 끝에 해결했는데,  
    세 번이나 **존재하지 않는 플래그를 환각**했음  
    ChatGPT 5.2도 ffmpeg 스크립트를 만드는 데 여러 번 수정이 필요했음  
    윈도우에서 줄바꿈을 제대로 처리하는 날이 오면 그게 AGI일지도 모름
  - 인간이 쓴 프로그램 중 LLM이 절대 못 쓰는 게 있을까?  
    단지 코드베이스가 크다는 이유는 일시적 한계일 뿐임  
    **진보를 싫어하는 사람들**의 불평처럼 들림

- Terminal Bench 2.0 결과  
  | 모델 | 점수 |  
  | --- | --- |  
  | OpenAI Codex 5.3 | 77.3 |  
  | Anthropic Opus 4.6 | 65.4 |
  - 이제 **벤치마크 경쟁(benchmaxxing)** 은 의미가 줄어든 듯함  
    점수보다 실제 코딩 경험의 ‘감각’이 더 중요함
  - 벤치마크보다 **현실 성능**이 훨씬 실망스러움

- 개발자들이 이 변화에 **위협을 느끼는지** 궁금함  
  나는 솔직히 그렇다고 느낌
  - AI는 **추상화 능력**이 부족함  
    경쟁 프로그래머라면 위협이겠지만 일반 개발자는 덜함
  - AI를 잘 활용하는 법을 배우지 않았다면 **위협을 느낄 만함**
  - 아직은 사람이 직접 코드를 검토해야 함  
    AGI가 오기 전까지는 완전 자동화는 불가능하다고 생각함
  - **Jevons의 역설**처럼, 효율이 높아져도 일자리는 사라지지 않을 수도 있음

- 주변에서는 Claude 사용자가 Codex보다 훨씬 많음  
  하지만 Codex는 **사용 한도와 요금제** 측면에서 훨씬 관대함  
  몇 달간 $20 플랜으로 써도 한도에 거의 도달하지 않음  
  이런 실용적 차이가 코딩 품질보다 더 중요하다고 느낌
  - 최근 CLI 기반 **터미널 에이전트**로 전환했는데 Codex가 훨씬 나았음  
    예전엔 GH Copilot에서 Claude가 더 좋았지만,  
    Codex는 **자율성**이 높아 vibe‑coding에 더 적합하고  
    트위터·링크드인 등에서의 **홍보 효과**로 사용자층이 커진 듯함
  - 나도 Codex의 **요금제 혜택**이 더 크다고 느낌  
    품질 차이를 모르겠다면 당연히 **저렴한 쪽**을 선택함
  - 하루 종일 멀티에이전트 세션을 돌려도 한도에 거의 안 걸림  
    플랜 전환도 자유로워서 **사용 경험이 매우 만족스러움**
