3P by GN⁺ 7시간전 | ★ favorite | 댓글 2개
  • GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론·전문 지식을 한 모델로 결합, 25% 더 빠른 속도 제공
  • Codex의 에이전틱 작업 범위를 장기 실행 작업까지 확장하고, 작업 중간에도 방향을 바꾸고 피드백을 반영하는 실시간 상호작용 협업을 Codex 앱에 통합
  • 자체 학습 과정의 디버깅, 배포 관리, 평가 진단에 초기 버전이 직접 활용된 최초의 자기 개발 참여 모델
  • SWE-Bench Pro, Terminal-Bench 2.0, OSWorld 등 주요 벤치마크에서 업계 최고 성능을 기록하며, 이전 모델보다 적은 토큰으로 동작
  • 코드 작성을 넘어 프레젠테이션, 스프레드시트, 데이터 분석 등 소프트웨어 생명주기 전반의 지식 노동을 지원

개요

  • GPT-5.3-Codex는 “가장 역량이 높은 에이전틱 코딩 모델”
  • GPT-5.2-Codex의 프런티어 코딩 성능과 GPT-5.2의 추론·전문 지식 역량을 한 모델로 결합, 속도 25% 향상
  • 리서치·도구 사용·복잡 실행이 포함된 장기 작업을 수행하도록 설계, 작업 중에도 컨텍스트를 잃지 않고 조율 가능
  • 초기 버전을 사용해 자기 학습·배포·평가 진단에 관여하며 “스스로의 개발을 가속”한 첫 모델
  • Codex의 역할을 “코드 작성·리뷰”에서 “컴퓨터에서 개발자·전문가가 하는 거의 모든 작업”으로 확대

프론티어 에이전틱 역량

  • 코딩 성능

    • SWE-Bench Pro(실제 소프트웨어 엔지니어링 평가)에서 최고 성능 달성, 이 벤치마크는 Python만 테스트하는 SWE-Bench Verified와 달리 4개 언어를 포괄하며 오염 저항성이 높고 산업 연관성이 큼
    • Terminal-Bench 2.0에서도 이전 최고 성능을 크게 초과, 코딩 에이전트에 필요한 터미널 기술 측정
    • 이전 모델 대비 더 적은 토큰으로 동일 작업 수행 가능
  • 웹 개발

    • 프론티어 코딩 역량, 미적 감각 개선, 압축 기술의 결합으로 복잡한 게임과 앱을 며칠에 걸쳐 처음부터 구축 가능
    • 웹 개발 및 장기 에이전틱 역량 테스트를 위해 레이싱 게임과 다이빙 게임 두 가지를 제작해 봄
      • 레이싱 게임: 다양한 레이서, 8개 맵, 스페이스바로 사용하는 아이템 포함
      • 다이빙 게임: 다양한 산호초 탐험, 물고기 도감 수집, 산소·수압·위험 요소 관리
    • "develop web game" 스킬과 "fix the bug", "improve the game" 같은 사전 설정된 범용 후속 프롬프트를 사용해 수백만 토큰에 걸쳐 자율적으로 반복 개선
    • 일상적인 웹사이트 제작 시 GPT-5.2-Codex 대비 사용자 의도를 더 잘 이해하며, 단순하거나 불충분한 프롬프트에도 더 많은 기능과 합리적인 기본값을 자동 적용
    • 랜딩 페이지 비교 예시: GPT-5.3-Codex는 연간 플랜을 할인된 월간 가격으로 자동 표시하고, 3개의 사용자 인용이 포함된 자동 전환 추천 캐러셀을 생성해 더 완성도 높은 결과물 제공
  • 코딩 이외의 역량

    • 소프트웨어 엔지니어, 디자이너, 프로덕트 매니저, 데이터 사이언티스트가 수행하는 디버깅, 배포, 모니터링, PRD 작성, 카피 편집, 사용자 리서치, 테스트, 메트릭 분석 등 소프트웨어 생명주기 전반 지원
    • 슬라이드 덱 제작, 시트 데이터 분석 등 소프트웨어 외 영역까지 확장
    • GDPval(44개 직업군의 잘 정의된 지식 노동 과제 측정 평가)에서 GPT-5.2와 동등한 70.9% 달성
      • 프레젠테이션, 스프레드시트 등 실제 업무 산출물 포함
    • 재무 자문 슬라이드, 소매 교육 문서, NPV 분석 스프레드시트, 패션 프레젠테이션 PDF 등 다양한 산출물 예시 제시
    • OSWorld-Verified(시각적 데스크톱 환경에서 생산성 과제 수행하는 에이전틱 컴퓨터 사용 벤치마크)에서 64.7% 달성, 이전 GPT 모델(38.2%) 대비 큰 폭 상승
      • 인간 점수는 약 72%

인터랙티브 협업자

  • 모델 역량이 강화됨에 따라, 에이전트가 할 수 있는 것보다 인간이 병렬로 작업하는 다수의 에이전트를 얼마나 쉽게 지시·감독할 수 있는가로 핵심 과제가 이동
  • Codex 앱이 에이전트 관리와 지시를 용이하게 하며, GPT-5.3-Codex에서 더 높은 상호작용성 제공
  • 작업 중 주요 결정과 진행 상황을 빈번하게 업데이트하여 사용자가 최종 결과를 기다리지 않고 실시간으로 질문, 접근 방식 논의, 방향 조정 가능
  • 자신이 하고 있는 작업을 설명하고, 피드백에 응답하며, 처음부터 끝까지 사용자를 루프에 포함
  • 설정 경로: Settings > General > Follow-up behavior에서 모델 작업 중 스티어링 활성화

Codex를 활용한 GPT-5.3-Codex 학습 및 배포

  • OpenAI 전체에 걸친 수개월~수년간의 연구 프로젝트 위에 최근의 빠른 Codex 개선이 구축됨
  • OpenAI의 많은 연구자와 엔지니어가 현재 업무 방식이 2개월 전과 근본적으로 다르다고 표현
  • 초기 버전의 GPT-5.3-Codex도 뛰어난 역량을 보여, 팀이 이 초기 버전을 활용해 이후 버전의 학습 개선과 배포를 지원
  • 연구팀 활용 사례

    • 이번 릴리스의 학습 런 모니터링 및 디버깅에 Codex 사용
    • 인프라 문제 디버깅을 넘어 학습 과정 전반의 패턴 추적, 상호작용 품질에 대한 심층 분석, 수정 제안, 이전 모델과의 행동 차이를 정밀하게 파악하기 위한 리치 애플리케이션 구축
  • 엔지니어링팀 활용 사례

    • GPT-5.3-Codex용 하네스 최적화 및 적응에 Codex 활용
    • 사용자에게 영향을 주는 이상한 에지 케이스 발생 시, Codex로 컨텍스트 렌더링 버그 식별과 낮은 캐시 적중률의 근본 원인 분석
    • 출시 기간 동안 트래픽 급증에 대응해 GPU 클러스터 동적 스케일링 및 지연 시간 안정화에 지속 활용
  • 알파 테스트 활용 사례

    • 한 연구자가 GPT-5.3-Codex가 턴당 얼마나 많은 추가 작업을 수행하는지와 생산성 차이를 이해하고자 함
    • GPT-5.3-Codex가 명확화 질문 빈도, 긍정·부정 응답, 작업 진행도를 추정하는 간단한 정규식 분류기 여러 개를 고안하고 전체 세션 로그에 대규모로 실행 후 결론 보고서 생성
    • Codex로 구축하는 사람들의 만족도가 더 높았으며, 에이전트가 의도를 더 잘 이해하고 턴당 더 많은 진행을 보이며 명확화 질문 감소
  • 데이터 파이프라인 구축

    • 알파 테스트 데이터가 이전 모델과 매우 달라 비정상적이고 반직관적인 결과 다수 발생
    • 데이터 사이언티스트가 GPT-5.3-Codex와 함께 새로운 데이터 파이프라인을 구축하고, 표준 대시보드 도구보다 훨씬 풍부한 시각화 수행
    • Codex와 함께 결과를 공동 분석하여, 수천 개의 데이터 포인트에 대한 핵심 인사이트를 3분 이내에 요약

사이버 보안 프론티어 확보

  • 최근 수개월간 사이버보안 과제에서의 모델 성능이 의미 있게 향상, 개발자와 보안 전문가 모두에게 혜택
  • 이와 병행하여 방어적 사용과 광범위한 생태계 회복력을 지원하기 위한 강화된 사이버 보안 안전장치 준비
  • Preparedness Framework 하에서 사이버보안 관련 과제에 대해 High 등급으로 분류된 최초의 모델이자, 소프트웨어 취약점 식별을 직접 학습한 최초의 모델
  • 종단 간 사이버 공격 자동화가 가능하다는 확정적 증거는 없으나, 예방적 접근을 취하며 지금까지 가장 포괄적인 사이버보안 안전 스택 배포
    • 안전 학습, 자동화 모니터링, 고급 기능에 대한 신뢰 기반 접근, 위협 인텔리전스를 포함한 집행 파이프라인
  • 사이버보안의 본질적 이중 용도 특성을 고려해, 방어자의 취약점 발견·수정 역량을 가속하면서 오용을 지연시키는 증거 기반 반복적 접근 채택
  • 방어 연구 및 생태계 보호 프로그램

    • Trusted Access for Cyber 파일럿 프로그램 출시, 사이버 방어 연구 가속 목적
    • 보안 연구 에이전트 Aardvark의 비공개 베타 확대, Codex Security 제품군의 첫 번째 제공물
    • 오픈소스 메인테이너와 협력하여 널리 사용되는 프로젝트(예: Next.js)에 무료 코드베이스 스캐닝 제공
      • 보안 연구자가 Codex를 사용해 지난 주 공개된 취약점(CVE-2025-59471, CVE-2025-59472) 발견
    • 2023년 출시된 100만 달러 규모 사이버보안 보조금 프로그램을 기반으로, 가장 강력한 모델을 활용한 사이버 방어 가속을 위해 1,000만 달러 API 크레딧 추가 투자
      • 특히 오픈소스 소프트웨어 및 핵심 인프라 시스템 대상
      • 선의의 보안 연구에 참여하는 조직은 Cybersecurity Grant Program을 통해 API 크레딧 및 지원 신청 가능

가용성 및 세부사항

  • GPT-5.3-Codex는 유료 ChatGPT 플랜에서 사용 가능하며, Codex가 지원되는 모든 곳(앱, CLI, IDE 확장, 웹)에서 이용 가능
  • API 접근은 안전하게 활성화하기 위해 준비 중
  • 인프라 및 추론 스택 개선으로 Codex 사용자 대상 25% 빠른 속도로 운영, 더 빠른 상호작용과 결과 제공
  • NVIDIA GB200 NVL72 시스템에서 공동 설계, 학습, 서빙

향후 방향

  • Codex가 코드 작성을 넘어 코드를 도구로 사용해 컴퓨터를 조작하고 작업을 처음부터 끝까지 완료하는 방향으로 이동
  • 코딩 에이전트의 프론티어를 확장함으로써 소프트웨어 구축·배포뿐 아니라 연구, 분석, 복잡한 과제 실행 등 더 광범위한 지식 노동 영역까지 해제
  • 최고의 코딩 에이전트에서 출발해, 컴퓨터 위의 범용 협업자로 발전하며 구축 가능한 대상과 구축할 수 있는 사람의 범위를 확장

Appendix: 벤치마크 수치

  • 모든 평가는 xhigh reasoning effort로 실행함
  • SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval(승리 또는 동점): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

옛날에는 클로드 쪽을 선호했는데, 최근에는 코덱스가 더 맘에 들더군요. iOS와 AOS처럼 상호보완적으로 발전하길 기대합니다.

Hacker News 의견들
  • GPT‑5.3 Codex와 Opus 4.6이 철학적으로 다른 방향으로 발전하고 있음이 흥미로움
    Codex는 인간이 중간에 개입하며 함께 작업하는 인터랙티브 협업자로 설계된 반면, Opus는 더 자율적이고 계획적인 시스템으로 인간의 개입을 최소화함
    이는 실제 개발자들이 LLM 기반 코딩을 바라보는 두 가지 관점 — 인간 중심 제어 vs 완전 위임 — 을 반영하는 듯함
    앞으로 모델들이 이런 철학적 분화를 따라 최적화될지, 혹은 새로운 접근들이 등장할지 궁금함

    • UX 관점에서는 오히려 반대처럼 느껴짐
      Codex가 답을 주기 전에 훨씬 오래 생각하는 경향이 있음
    • 나는 Codex 접근법이 지속될 것이라 확신함
      인간이 루프 안에 있으면 LLM의 문제를 대부분 피할 수 있고, 작은 코드 단위로 검토하는 방식이 효율적임
      Codex가 반복적인 작업을 처리해주면 개발자는 핵심 로직에 집중할 수 있음
      완전 자율형 접근은 코드 품질이 장기적으로 떨어지므로 대규모 코드베이스에는 부적합함
    • 실제로는 Codex가 처음엔 웹앱 형태로 나와 상호작용이 거의 없었음
      요청을 던지고 컨테이너 환경에서 자동 실행되며, 이후 채팅으로만 후속 조치가 가능했음
    • 두 모델이 서로의 영역으로 수렴하는 느낌임
      Codex는 점점 더 자율적이 되고, Opus는 협업적이 되어가는 듯함
      결국 상황에 따라 두 접근 모두 유용하게 쓰일 가능성이 큼
    • Codex가 Opus보다 더 많이 사고하는 모델로 느껴짐
      그래서 5.2 버전이 Opus 4.5보다 더 안정적이었음
  • Anthropic이 GPT‑5.3‑Codex와의 비교를 피하려고 서둘러 Opus 4.6을 공개한 듯함
    Terminal‑Bench 2.0 점수는 Opus 4.6이 65.4, GPT‑5.3‑Codex가 77.3임

    • AI 벤치마크는 실제 경험과 잘 맞지 않음
      그래도 Codex 5.2는 복잡한 작업에서 가장 뛰어났고, 5.3을 기대 중
    • 같은 날 두 개의 최상위 코딩 모델이 공개된 게 놀라움
    • 테스트가 xhigh reasoning 모드에서 진행되어 비용이 두 배였음
      GPT‑5.2 Codex는 $3244, Claude Opus 4.5는 $1485 수준
    • Codex가 Terminal Bench에 오버핏된 것 같음
      ARC AGI 2 결과를 보면 일반화는 부족해 보임
    • 내 경험상 GPT 계열이 Claude보다 에이전트형 코딩에 훨씬 강했음
      Claude가 코딩에서 우위라는 주장에는 의문이 있음
  • GPT‑5.3‑Codex가 자기 자신을 개발에 활용한 첫 모델이라는 점이 인상적임
    Codex 팀이 초기 버전으로 자체 학습 파이프라인을 디버깅했다고 함
    Claude Code가 성장한 이유도 이런 dogfooding 문화 덕분이라 생각함

    • AI‑2027 프로젝트의 연구자들이 예측한 방향과 크게 다르지 않음
    • 모델이 자기 개선의 초기 단계에 들어선 것 같음
      이제 ‘점진적 발전(soft take‑off)’이 가능할지 다시 생각하게 됨
  • GPT‑5.3‑Codex가 사이버보안 관련 작업에서 고성능(high capability) 모델로 분류됨
    취약점 탐지를 직접 학습했지만, 완전한 공격 자동화는 아직 증거가 없음
    다만 보안 프레임워크는 구식이라 생각함
    앞으로는 Codex가 작성한 코드 자체가 보안 위협의 새로운 공격 표면이 될 가능성이 큼
    Codex는 기본적으로 안전한 코드를 생성하도록 설계되어야 함

    • “high‑capability”가 박사급 전문가 팀보다 강한 주장인지 궁금함
      관련 기사: NBC News 보도
    • OpenAI가 또다시 AGI에 근접했다는 인상을 주려는 전형적인 전략 같음
      Anthropic과 마찬가지로 ‘안전 연구’라는 포장 아래 기술력을 과시하는 느낌임
    • 요즘 vibe‑coded 프로젝트들이 API 키를 웹페이지에 그대로 노출한다는 농담이 있음
      이런 실수가 계속될지 궁금함
    • “보안 강화”라더니 결국 ACL 추가와 정규식 업데이트 수준일지도 모름
  • 예전엔 AI 연구소들이 동시 발표를 피하려고 조율했는데,
    이제는 30분 간격으로 경쟁적으로 발표함

    • 이제 완전히 치열한 경쟁 구도로 바뀌었음
      Demis는 정치 싸움엔 약하지만 성능으로 승부할 듯
      Elon, Sam, Dario는 이미 정치적 수 싸움에 능함
      2026년은 AI 업계의 드라마틱한 해가 될 것 같음
    • 중국 춘절 시기에 맞춰 로컬 모델들과 경쟁하려는 일정 조정도 있음
    • 이런 경쟁은 GPT‑4 시절부터 이어져 왔음
      OpenAI의 10시 발표에 맞춰 Anthropic과 Google이 맞불 런칭을 했었음
    • 이런 조율이 카르텔 행위로 불법일 수도 있지 않을까 하는 의문이 있음
  • GPT‑5.3‑Codex가 웹게임을 자율적으로 개선했다는 발표를 보고 흥미로웠음
    하지만 비교 실험의 프롬프트 수나 토큰 수가 공개되지 않아 아쉬움
    예전에 내가 만든 Factorio 웹 클론과 비교해보고 싶음

    • 그 데모가 정말 멋짐
      이런 식으로 모델을 활용하는 줄 몰랐음
  • 몇 년째 “AI로 생산성 100배 향상”이라는 말을 듣고 있음
    그런데 실제로 LLM이 주도적으로 만든, 새롭고 신뢰할 만한 프로그램이 있는지 궁금함

    • 1930년대 계산기 도입 때도 회계직이 사라질 거라 했지만 오히려 전문화되었음
      LLM도 기존 문제 해결을 더 빠르게 만들어줄 뿐, 완전히 새로운 문제를 푸는 건 아님
      예를 들어 UI 카드 배열 문제에서 Gemini가 극좌표 기반 접근법을 제안해줘서 큰 도움을 받았음
      100배는 아니어도 2배의 생산성 향상은 체감함
      관련 스레드: vibe coding 사례
    • 대부분의 개발자는 새로운 문제보다 기존 문제를 반복 해결함
      그래서 “이미 해결된 문제”라는 비판은 큰 의미가 없음
    • 오픈소스로 공개된 대형 게임 프로젝트(OpenGTA, OpenFIFA 등) 가 나오면 좋겠음
    • Opus 4.5가 단순한 git 문제를 다섯 번 시도 끝에 해결했는데,
      세 번이나 존재하지 않는 플래그를 환각했음
      ChatGPT 5.2도 ffmpeg 스크립트를 만드는 데 여러 번 수정이 필요했음
      윈도우에서 줄바꿈을 제대로 처리하는 날이 오면 그게 AGI일지도 모름
    • 인간이 쓴 프로그램 중 LLM이 절대 못 쓰는 게 있을까?
      단지 코드베이스가 크다는 이유는 일시적 한계일 뿐임
      진보를 싫어하는 사람들의 불평처럼 들림
  • Terminal Bench 2.0 결과

    모델 점수
    OpenAI Codex 5.3 77.3
    Anthropic Opus 4.6 65.4
    • 이제 벤치마크 경쟁(benchmaxxing) 은 의미가 줄어든 듯함
      점수보다 실제 코딩 경험의 ‘감각’이 더 중요함
    • 벤치마크보다 현실 성능이 훨씬 실망스러움
  • 개발자들이 이 변화에 위협을 느끼는지 궁금함
    나는 솔직히 그렇다고 느낌

    • AI는 추상화 능력이 부족함
      경쟁 프로그래머라면 위협이겠지만 일반 개발자는 덜함
    • AI를 잘 활용하는 법을 배우지 않았다면 위협을 느낄 만함
    • 아직은 사람이 직접 코드를 검토해야 함
      AGI가 오기 전까지는 완전 자동화는 불가능하다고 생각함
    • Jevons의 역설처럼, 효율이 높아져도 일자리는 사라지지 않을 수도 있음
  • 주변에서는 Claude 사용자가 Codex보다 훨씬 많음
    하지만 Codex는 사용 한도와 요금제 측면에서 훨씬 관대함
    몇 달간 $20 플랜으로 써도 한도에 거의 도달하지 않음
    이런 실용적 차이가 코딩 품질보다 더 중요하다고 느낌

    • 최근 CLI 기반 터미널 에이전트로 전환했는데 Codex가 훨씬 나았음
      예전엔 GH Copilot에서 Claude가 더 좋았지만,
      Codex는 자율성이 높아 vibe‑coding에 더 적합하고
      트위터·링크드인 등에서의 홍보 효과로 사용자층이 커진 듯함
    • 나도 Codex의 요금제 혜택이 더 크다고 느낌
      품질 차이를 모르겠다면 당연히 저렴한 쪽을 선택함
    • 하루 종일 멀티에이전트 세션을 돌려도 한도에 거의 안 걸림
      플랜 전환도 자유로워서 사용 경험이 매우 만족스러움