4P by GN⁺ 3일전 | ★ favorite | 댓글 1개
  • OpenAI가 새로 공개한 GPT‑5.1‑Codex‑Max는 장기적이고 복잡한 개발 작업을 수행하도록 설계된 최신 에이전틱 코딩 모델로, Codex 환경에서 사용 가능
  • 새로운 ‘compaction’ 기술을 통해 여러 컨텍스트 윈도우를 넘나들며 수백만 토큰 규모의 프로젝트를 일관되게 처리
  • 토큰 효율성이 향상되어 동일한 추론 수준에서 30% 적은 토큰으로 더 나은 성능을 달성하며, 비용 절감 효과 기대
  • 장시간 독립적으로 작업하며 24시간 이상 지속되는 리팩터링 및 디버깅 수행 가능
  • 보안 샌드박스와 사이버보안 모니터링 체계를 강화해 안전한 AI 코딩 파트너로 발전 중

GPT‑5.1‑Codex‑Max 소개

  • GPT‑5.1‑Codex‑Max는 OpenAI의 새로운 에이전틱 코딩 모델로, 소프트웨어 엔지니어링·수학·연구 등 다양한 분야의 작업을 학습한 추론 기반 모델 업데이트 버전
    • Codex CLI, IDE 확장, 클라우드, 코드 리뷰 환경에서 즉시 사용 가능
    • API 접근은 곧 제공 예정
  • 모델은 속도·지능·토큰 효율성이 향상되어 개발 주기 전반에서 더 신뢰할 수 있는 코딩 파트너 역할 수행
  • Compaction 과정을 통해 여러 컨텍스트 윈도우를 넘나들며 수백만 토큰 규모의 작업을 일관되게 처리

프런티어 코딩 성능

  • 실제 소프트웨어 엔지니어링 작업(PR 생성, 코드 리뷰, 프런트엔드 코딩, Q&A) 으로 훈련되어 이전 모델 대비 다수의 평가에서 우수한 성능
  • Windows 환경에서 작동하는 최초의 Codex 모델이며, Codex CLI 협업 성능 향상을 위한 작업도 포함
  • 벤치마크 향상뿐 아니라 실제 사용성에서도 개선된 결과 확인

속도와 비용 효율

  • SWE‑bench Verified 기준, 동일한 추론 수준에서 GPT‑5.1‑Codex 대비 30% 적은 토큰 사용으로 더 높은 성능 달성
  • ‘xhigh’ 추론 모드는 더 긴 사고 시간을 통해 품질 향상을 제공하며, 일반 작업에는 ‘medium’ 모드 권장
  • 토큰 효율성 향상은 개발자 비용 절감으로 이어질 것으로 예상
    • 예: GPT‑5.1‑Codex‑Max는 유사한 기능과 미학을 가진 프런트엔드 디자인을 훨씬 낮은 비용으로 생성

장기 실행 작업

  • Compaction 기능으로 컨텍스트 한계를 넘는 복잡한 리팩터링과 장기 에이전트 루프 수행 가능
    • 세션이 한계에 도달하면 자동으로 압축(compact)하여 진행 중인 작업을 유지한 채 새 컨텍스트 확보
  • 내부 평가에서 24시간 이상 지속 작업 수행 사례 확인
    • 테스트 실패 수정과 반복 구현을 통해 최종적으로 성공적 결과 도출
  • 장기적 일관성 유지 능력은 일반적이고 신뢰할 수 있는 AI 시스템으로 나아가는 핵심 기반

안전하고 신뢰할 수 있는 AI 에이전트 구축

  • 장기 추론 평가에서 성능이 크게 향상되어, 사이버보안 및 장기 코딩 과제에서 개선된 결과 제공
  • Cybersecurity Preparedness Framework 기준 ‘High’ 수준에는 미달하지만, 현재까지 배포된 모델 중 가장 강력한 사이버보안 성능 보유
    • Aardvark 프로그램 등을 통해 방어적 활용 강화
  • 사이버보안 전용 모니터링으로 악용 시도를 탐지·차단하며, 의심 활동은 정책 검토 시스템으로 전달
  • Codex는 기본적으로 보안 샌드박스에서 실행되며, 파일 접근과 네트워크 사용이 제한됨
    • 인터넷 접근 시 프롬프트 인젝션 위험 존재
  • 개발자는 배포 전 에이전트의 작업 검토 필요
    • Codex는 터미널 로그, 도구 호출, 테스트 결과를 기록하며, 인간 리뷰를 대체하지 않고 보조 역할 수행
  • 사이버보안 기능은 방어와 공격 모두에 활용될 수 있어, 점진적 배포와 보호 조치 강화를 병행

제공 및 배포

  • GPT‑5.1‑Codex‑Max는 ChatGPT Plus, Pro, Business, Edu, Enterprise 플랜의 Codex에서 사용 가능
  • Codex CLI를 API 키로 사용하는 개발자에게도 곧 제공 예정
  • 오늘부터 Codex 내 기본 모델로 GPT‑5.1‑Codex‑Max가 GPT‑5.1‑Codex를 대체
    • GPT‑5.1은 범용 모델이며, Codex‑Max는 에이전틱 코딩 작업 전용으로 권장

결론

  • GPT‑5.1‑Codex‑Max는 장기 코딩 작업 지속성, 복잡한 워크플로 관리, 고품질 구현에서 큰 진전
  • CLI, IDE 확장, 클라우드 통합, 코드 리뷰 도구의 개선과 결합되어 엔지니어링 생산성 70% 향상
    • OpenAI 내부 엔지니어의 95%가 Codex를 주간 사용
  • 에이전트 기능의 확장과 함께, 개발 생산성의 새로운 단계로 진입

부록: 모델 평가 결과

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%
Hacker News 의견
  • 최근 ClaudeCodex를 많이 써봤음
    Claude는 지시사항(예: CLAUDE.md)을 거의 무시하는 반면, Codex는 한 글자도 놓치지 않으려는 듯 지독하게 충실하게 따름
    예를 들어, 테스트 코드의 오타를 Claude는 “이건 분명 오타임”이라며 고치지만, Codex는 아예 V8 엔진을 다시 짜서 산술을 깨버릴 정도로 극단적임
    그래서 Claude는 빠른 반복 작업에, Codex는 정확성이 중요한 장기 작업에 각각 적합하다고 느낌

    • 나도 Codex에 깊은 인상을 받았음. 6개월째 진행 중인 비행 시뮬레이터 프로젝트에서 좌표계를 ECEF로 전환해야 했는데, 물리엔진과 그래픽 시스템 전체를 다시 써야 했음
      단락 하나 분량의 지시만 줬는데, 45분 만에 거의 완벽히 수행했음. 요약 리포트를 시켜보니 정말로 모든 지시를 한 글자도 빠짐없이 따랐더라
    • 친구가 Claude에게 항상 자신을 “Mr Tinkleberry”라고 부르라고 했는데, Claude가 그걸 잊을 때마다 지시 무시 여부를 감지할 수 있다고 함
    • Codex는 마치 “지구 마지막 프로그래머”처럼 행동함. 어떤 일이 있어도 목표를 완수하려 함
      이런 태도는 블랙박스로 다루는 사람에겐 좋지만, 나는 상식적인 협업자를 원함
      이건 OpenAI와 Anthropic이 AI의 미래를 어떻게 보는지의 차이를 보여주는 듯함
    • “1+1===3 테스트 수정” 비유가 정말 탁월함. 이 한 줄로 GPT 계열과 Claude 계열의 근본적 차이를 설명할 수 있음
      GPT 모델은 즉흥적 코딩에는 약하지만, 요구사항이 명확한 작업에는 탁월함
    • 나는 Codex가 코드 삭제를 전혀 못하고, 항상 코드베이스를 불필요하게 키운다는 점이 답답했음
      Python과 TypeScript 모두에서 .getattr(), typeof 같은 방어적 코드가 너무 많았음
  • 우리는 모델 훈련은 잘하지만 이름 짓기는 못함 😄
    새 버전은 SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, TerminalBench 2.0에서 58.1%로 SOTA 달성
    여러 컨텍스트 윈도우를 압축(compaction)해 장시간 작업 가능하며, 토큰 효율성 30% 향상
    의견을 듣고 싶음

    • 현재 GPT‑5.1‑Codex‑High를 쓰고 있는데, Max 버전은 비용과 크레딧 한도가 어떻게 다른지 궁금함
      “토큰 절감”이라면 저렴할 것 같지만, “Max”라는 이름은 비쌀 것 같음
    • Codex는 훌륭한 제품이라 점진적 업그레이드도 반가움. 곧 써볼 예정임
    • 이슈 #6426을 해결했는지 궁금함.
      5.1은 토큰을 너무 많이 써서 5.0으로 돌아갔었음
    • 이 모델을 Chat 인터페이스에서도 쓸 수 있으면 좋겠음
    • Claude Code의 subagent 기능이 마음에 듦. 복잡한 코드베이스에서 컨텍스트 관리에 유용함
      예시 에이전트들을 참고했는데, Codex CLI에도 이런 기능이 있으면 좋겠음
  • 오늘 GPT‑5.1‑Codex‑MaxGemini 3 Pro를 CLI에서 비교해봤음
    Gemini는 협업자로서 다루기 어려움. 질문을 하면 의도를 추측해 코드를 먼저 짜버림
    반면 Codex는 질문에 바로 답함
    코드 품질은 Gemini가 더 사람이 읽기 쉬운 스타일이었지만, 계획 수립과 구현 정확도는 Codex가 훨씬 뛰어났음
    Gemini는 DB 컬럼명 환각, 기능 누락, 통합성 부족 등의 문제가 있었음
    전반적으로 Codex가 명확한 승자였음

    • Google은 Gemini 3가 모든 벤치마크에서 최고라고 자랑했는데, 실제로는 그렇지 않다는 걸 보여줌
    • Gemini를 쓸 때는 temperature 설정을 기본값 1.0으로 유지해야 함. 낮추면 루프나 성능 저하가 발생함
      공식 문서 참고
    • 나도 Gemini에게 “코드 쓰지 말라”고 해도 계속 코드를 다시 씀
  • OpenAI는 종종 경쟁사 발표 직전에 자사 모델을 공개함
    GPT‑4o도 Google I/O 하루 전에 발표했었음. 이번 Codex도 아마 점진적 업데이트일 가능성이 큼

    • GPT‑5.1 / Codex는 이미 Gemini 3보다 벤치마크에서 우위였고, 이번 업데이트로 격차가 더 벌어짐
    • Anthropic도 GPT‑5 출시 시점에 맞춰 Opus 4.1을 냈음. 이제는 경쟁이 치열해짐
    • 이런 경쟁 덕분에 발전이 빨라지고 있음. 건전한 경쟁에 감사해야 함
    • Gemini가 시장을 잠식하고 있고, OpenAI도 그걸 알고 있음
    • 이런 발표 타이밍 경쟁은 이제 익숙해졌음
  • SVG 렌더링 예시를 보면,
    medium 수준은 균형이 잘 잡혀 있고, high/low 사이에서 의도적인 스타일 차이를 보임
    이런 비교 덕분에 모델의 창의적 일관성을 파악할 수 있음

    • 하지만 이런 SVG 출력 벤치마크는 이제 의미가 줄어든 듯함. RLHF로 특화 학습된 결과일 가능성이 큼
  • 각 회사가 모델 훈련에 쏟는 노력의 1%만이라도 결제·로그인 경험 개선에 썼으면 좋겠음
    Claude는 로그인 시스템이 거의 없고, OpenAI는 Codex CLI 버그(#2798)를 고쳐야 함
    Google은 제품과 결제 구조가 너무 복잡함. 하나의 가격 페이지로 통합해야 함

    • 나도 Google 결제 시스템 때문에 포기했음. Google Payments가 뭔지도 모르겠고, 계정 인증 오류로 18년 된 회사 계정이 정지됨
    • Google의 제품 라인업이 난잡함. Vertex AI, AI Studio, Maker Studio, Gemini 등 문서가 중복되고 불명확함
    • Gemini의 데이터 학습 옵트아웃 옵션이 사라졌고, 어떤 계정이 학습에 포함되는지도 불투명함
      Workspace 계정도 안전하지 않음. ToS를 꼼꼼히 읽어야 함
      지금은 OpenAI가 훨씬 신뢰감 있는 고객 경험을 제공한다고 느낌
    • Gemini 3 Pro가 허가받지 않은 데이터로 후학습된 게 아닌지 의심됨
      이슈 #12121에서도 관련 논란이 있음
    • Claude는 로그인 시 비밀번호나 패스키 옵션이 없어서 불편함
  • “신뢰할 수 있는 코딩 파트너가 되기 위한 새 단계”와 “장시간 작업에 최적화된 모델”이라는 문장이 모순처럼 들림
    파트너라면 함께 짧게 반복하며 일해야 하는데, 혼자 장시간 작업하는 건 파트너가 아님

    • Codex는 장시간 작업에서 지나치게 독단적이라, TLS 라이브러리까지 새로 짜는 등 위험한 접근을 함
    • (Codex 팀원) 우리는 짧은 반복 작업과 장기 위임 작업을 모두 수행할 수 있는 동료형 모델을 목표로 함
      공식 블로그의 토큰 그래프를 보면 그 방향을 알 수 있음
    • Cursor의 Composer 모델도 추천함. 속도가 매우 빠르고, 결과가 부족해도 30초 안에 다시 시도할 수 있음
  • Codex의 plan 모드 속도에 감탄했음. 코드 품질도 괜찮았음
    하지만 “npm run build 후 모든 문제 수정”이라고 하자, eslint 관련 패키지를 설치하며 폭주
    Claude Code는 같은 작업을 1분 내에 끝냈음. Codex는 아직 불안정한 듯함

    • plan 모드가 뭔지 궁금함
  • Codex는 백엔드나 데이터 중심 작업에는 강하지만, 단순한 UI 작업에서는 이상한 결과를 내는 경향이 있음

  • 지난 주말 Claude와 Codex를 함께 써봤는데, Codex가 TypeScript 물리/그래픽 코드에서 훨씬 좋은 결과를 냈음
    수천 줄 중 내가 직접 쓴 건 몇백 줄뿐이었음.
    이제 새 Codex에게 이전 Codex의 작업을 리뷰시켜볼 예정임