# GPT‑5.1‑Codex‑Max로 더 많은 것을 구축하기

> Clean Markdown view of GeekNews topic #24494. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24494](https://news.hada.io/topic?id=24494)
- GeekNews Markdown: [https://news.hada.io/topic/24494.md](https://news.hada.io/topic/24494.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-20T22:35:48+09:00
- Updated: 2025-11-20T22:35:48+09:00
- Original source: [openai.com](https://openai.com/index/gpt-5-1-codex-max/)
- Points: 5
- Comments: 2

## Summary

OpenAI의 **GPT‑5.1‑Codex‑Max**는 코드 생성기를 넘어, 장시간 자율적으로 리팩터링과 디버깅을 수행하는 **에이전틱 코딩 모델**로 진화했습니다. 새로운 **‘compaction’ 기술** 덕분에 수백만 토큰 규모의 프로젝트를 끊김 없이 다루며, 이전 대비 **30% 향상된 토큰 효율성**으로 비용까지 줄였습니다. 보안 샌드박스와 **사이버보안 모니터링 체계**도 강화되어, 장기 실행형 AI 에이전트를 실제 개발 환경에 투입할 수 있는 기반이 마련된 셈입니다. 이제 “AI가 코드를 짜는 시대”를 넘어, **AI가 프로젝트를 끝까지 책임지는 시대**가 열리고 있다는 점이 흥미롭습니다.

## Topic Body

- OpenAI가 새로 공개한 **GPT‑5.1‑Codex‑Max**는 장기적이고 복잡한 개발 작업을 수행하도록 설계된 **최신 에이전틱 코딩 모델**로, Codex 환경에서 사용 가능  
- 새로운 **‘compaction’ 기술**을 통해 여러 컨텍스트 윈도우를 넘나들며 수백만 토큰 규모의 프로젝트를 일관되게 처리  
- **토큰 효율성**이 향상되어 동일한 추론 수준에서 30% 적은 토큰으로 더 나은 성능을 달성하며, 비용 절감 효과 기대  
- 장시간 독립적으로 작업하며 **24시간 이상 지속되는 리팩터링 및 디버깅** 수행 가능  
- 보안 샌드박스와 **사이버보안 모니터링 체계**를 강화해 안전한 AI 코딩 파트너로 발전 중  
  
---  
  
### GPT‑5.1‑Codex‑Max 소개  
- **GPT‑5.1‑Codex‑Max**는 OpenAI의 새로운 **에이전틱 코딩 모델**로, 소프트웨어 엔지니어링·수학·연구 등 다양한 분야의 작업을 학습한 **추론 기반 모델 업데이트 버전**  
  - Codex CLI, IDE 확장, 클라우드, 코드 리뷰 환경에서 즉시 사용 가능  
  - API 접근은 곧 제공 예정  
- 모델은 **속도·지능·토큰 효율성**이 향상되어 개발 주기 전반에서 더 신뢰할 수 있는 코딩 파트너 역할 수행  
- **Compaction** 과정을 통해 여러 컨텍스트 윈도우를 넘나들며 수백만 토큰 규모의 작업을 일관되게 처리  
  
### 프런티어 코딩 성능  
- 실제 **소프트웨어 엔지니어링 작업(PR 생성, 코드 리뷰, 프런트엔드 코딩, Q&A)** 으로 훈련되어 이전 모델 대비 다수의 평가에서 우수한 성능  
- **Windows 환경**에서 작동하는 최초의 Codex 모델이며, Codex CLI 협업 성능 향상을 위한 작업도 포함  
- 벤치마크 향상뿐 아니라 실제 사용성에서도 개선된 결과 확인  
  
### 속도와 비용 효율  
- **SWE‑bench Verified** 기준, 동일한 추론 수준에서 GPT‑5.1‑Codex 대비 **30% 적은 토큰 사용**으로 더 높은 성능 달성  
- **‘xhigh’ 추론 모드**는 더 긴 사고 시간을 통해 품질 향상을 제공하며, 일반 작업에는 ‘medium’ 모드 권장  
- 토큰 효율성 향상은 **개발자 비용 절감**으로 이어질 것으로 예상  
  - 예: GPT‑5.1‑Codex‑Max는 유사한 기능과 미학을 가진 프런트엔드 디자인을 훨씬 낮은 비용으로 생성  
  
### 장기 실행 작업  
- **Compaction 기능**으로 컨텍스트 한계를 넘는 복잡한 리팩터링과 장기 에이전트 루프 수행 가능  
  - 세션이 한계에 도달하면 자동으로 압축(compact)하여 진행 중인 작업을 유지한 채 새 컨텍스트 확보  
- 내부 평가에서 **24시간 이상 지속 작업** 수행 사례 확인  
  - 테스트 실패 수정과 반복 구현을 통해 최종적으로 성공적 결과 도출  
- 장기적 일관성 유지 능력은 **일반적이고 신뢰할 수 있는 AI 시스템**으로 나아가는 핵심 기반  
  
### 안전하고 신뢰할 수 있는 AI 에이전트 구축  
- **장기 추론 평가**에서 성능이 크게 향상되어, **사이버보안 및 장기 코딩 과제**에서 개선된 결과 제공  
- **Cybersecurity Preparedness Framework** 기준 ‘High’ 수준에는 미달하지만, 현재까지 배포된 모델 중 **가장 강력한 사이버보안 성능** 보유  
  - **Aardvark 프로그램** 등을 통해 방어적 활용 강화  
- **사이버보안 전용 모니터링**으로 악용 시도를 탐지·차단하며, 의심 활동은 정책 검토 시스템으로 전달  
- Codex는 기본적으로 **보안 샌드박스**에서 실행되며, 파일 접근과 네트워크 사용이 제한됨  
  - 인터넷 접근 시 **프롬프트 인젝션 위험** 존재  
- 개발자는 배포 전 **에이전트의 작업 검토** 필요  
  - Codex는 터미널 로그, 도구 호출, 테스트 결과를 기록하며, **인간 리뷰를 대체하지 않고 보조 역할** 수행  
- 사이버보안 기능은 방어와 공격 모두에 활용될 수 있어, **점진적 배포와 보호 조치 강화**를 병행  
  
### 제공 및 배포  
- GPT‑5.1‑Codex‑Max는 **ChatGPT Plus, Pro, Business, Edu, Enterprise** 플랜의 Codex에서 사용 가능  
- Codex CLI를 API 키로 사용하는 개발자에게도 곧 제공 예정  
- 오늘부터 Codex 내 **기본 모델로 GPT‑5.1‑Codex‑Max가 GPT‑5.1‑Codex를 대체**  
  - GPT‑5.1은 범용 모델이며, Codex‑Max는 **에이전틱 코딩 작업 전용**으로 권장  
  
### 결론  
- GPT‑5.1‑Codex‑Max는 **장기 코딩 작업 지속성, 복잡한 워크플로 관리, 고품질 구현**에서 큰 진전  
- CLI, IDE 확장, 클라우드 통합, 코드 리뷰 도구의 개선과 결합되어 **엔지니어링 생산성 70% 향상**  
  - OpenAI 내부 엔지니어의 **95%가 Codex를 주간 사용**  
- 에이전트 기능의 확장과 함께, **개발 생산성의 새로운 단계**로 진입  
  
### 부록: 모델 평가 결과  
- **SWE‑bench Verified (n=500)** : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%  
- **SWE‑Lancer IC SWE**: 66.3% → 79.9%  
- **Terminal‑Bench 2.0**: 52.8% → 58.1%

## Comments


### Comment 46839

- Author: kaydash
- Created: 2025-11-27T01:44:49+09:00
- Points: 1

코덱스야 MS AOIA에서 만나쟈😊

### Comment 46618

- Author: neo
- Created: 2025-11-20T22:35:49+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45982649) 
- 최근 **Claude**와 **Codex**를 많이 써봤음  
  Claude는 지시사항(예: *CLAUDE.md*)을 거의 무시하는 반면, Codex는 한 글자도 놓치지 않으려는 듯 **지독하게 충실**하게 따름  
  예를 들어, 테스트 코드의 오타를 Claude는 “이건 분명 오타임”이라며 고치지만, Codex는 아예 **V8 엔진을 다시 짜서 산술을 깨버릴** 정도로 극단적임  
  그래서 Claude는 빠른 반복 작업에, Codex는 정확성이 중요한 장기 작업에 각각 적합하다고 느낌  
  - 나도 Codex에 깊은 인상을 받았음. 6개월째 진행 중인 **비행 시뮬레이터 프로젝트**에서 좌표계를 ECEF로 전환해야 했는데, 물리엔진과 그래픽 시스템 전체를 다시 써야 했음  
    단락 하나 분량의 지시만 줬는데, 45분 만에 거의 완벽히 수행했음. 요약 리포트를 시켜보니 정말로 모든 지시를 **한 글자도 빠짐없이** 따랐더라  
  - 친구가 Claude에게 항상 자신을 “Mr Tinkleberry”라고 부르라고 했는데, Claude가 그걸 잊을 때마다 **지시 무시 여부를 감지**할 수 있다고 함  
  - Codex는 마치 “지구 마지막 프로그래머”처럼 행동함. 어떤 일이 있어도 목표를 완수하려 함  
    이런 태도는 블랙박스로 다루는 사람에겐 좋지만, 나는 **상식적인 협업자**를 원함  
    이건 OpenAI와 Anthropic이 AI의 미래를 어떻게 보는지의 차이를 보여주는 듯함  
  - “1+1===3 테스트 수정” 비유가 정말 탁월함. 이 한 줄로 GPT 계열과 Claude 계열의 **근본적 차이**를 설명할 수 있음  
    GPT 모델은 즉흥적 코딩에는 약하지만, **요구사항이 명확한 작업**에는 탁월함  
  - 나는 Codex가 **코드 삭제를 전혀 못하고**, 항상 코드베이스를 불필요하게 키운다는 점이 답답했음  
    Python과 TypeScript 모두에서 `.getattr()`, `typeof` 같은 방어적 코드가 너무 많았음  

- 우리는 모델 훈련은 잘하지만 **이름 짓기는 못함** 😄  
  새 버전은 SWE-Bench-Verified 77.9%, SWE-Lancer 79.9%, TerminalBench 2.0에서 58.1%로 **SOTA 달성**  
  여러 컨텍스트 윈도우를 압축(compaction)해 장시간 작업 가능하며, **토큰 효율성 30% 향상**  
  의견을 듣고 싶음  
  - 현재 GPT‑5.1‑Codex‑High를 쓰고 있는데, Max 버전은 **비용과 크레딧 한도**가 어떻게 다른지 궁금함  
    “토큰 절감”이라면 저렴할 것 같지만, “Max”라는 이름은 비쌀 것 같음  
  - Codex는 훌륭한 제품이라 **점진적 업그레이드**도 반가움. 곧 써볼 예정임  
  - [이슈 #6426](https://github.com/openai/codex/issues/6426)을 해결했는지 궁금함.  
    5.1은 토큰을 너무 많이 써서 5.0으로 돌아갔었음  
  - 이 모델을 **Chat 인터페이스**에서도 쓸 수 있으면 좋겠음  
  - Claude Code의 **subagent 기능**이 마음에 듦. 복잡한 코드베이스에서 컨텍스트 관리에 유용함  
    [예시 에이전트들](https://github.com/humanlayer/humanlayer/tree/main/.claude/agents)을 참고했는데, Codex CLI에도 이런 기능이 있으면 좋겠음  

- 오늘 **GPT‑5.1‑Codex‑Max**와 **Gemini 3 Pro**를 CLI에서 비교해봤음  
  Gemini는 협업자로서 다루기 어려움. 질문을 하면 의도를 추측해 코드를 먼저 짜버림  
  반면 Codex는 질문에 바로 답함  
  코드 품질은 Gemini가 더 **사람이 읽기 쉬운 스타일**이었지만, 계획 수립과 구현 정확도는 Codex가 훨씬 뛰어났음  
  Gemini는 **DB 컬럼명 환각**, **기능 누락**, **통합성 부족** 등의 문제가 있었음  
  전반적으로 Codex가 명확한 승자였음  
  - Google은 Gemini 3가 모든 벤치마크에서 최고라고 자랑했는데, 실제로는 그렇지 않다는 걸 보여줌  
  - Gemini를 쓸 때는 **temperature 설정**을 기본값 1.0으로 유지해야 함. 낮추면 루프나 성능 저하가 발생함  
    [공식 문서](https://ai.google.dev/gemini-api/docs/gemini-3?thinking=high) 참고  
  - 나도 Gemini에게 “코드 쓰지 말라”고 해도 계속 코드를 다시 씀  

- OpenAI는 종종 **경쟁사 발표 직전**에 자사 모델을 공개함  
  GPT‑4o도 Google I/O 하루 전에 발표했었음. 이번 Codex도 아마 **점진적 업데이트**일 가능성이 큼  
  - GPT‑5.1 / Codex는 이미 **Gemini 3보다 벤치마크에서 우위**였고, 이번 업데이트로 격차가 더 벌어짐  
  - Anthropic도 GPT‑5 출시 시점에 맞춰 Opus 4.1을 냈음. 이제는 경쟁이 치열해짐  
  - 이런 경쟁 덕분에 발전이 빨라지고 있음. **건전한 경쟁**에 감사해야 함  
  - Gemini가 시장을 잠식하고 있고, OpenAI도 그걸 알고 있음  
  - 이런 발표 타이밍 경쟁은 이제 익숙해졌음  

- [SVG 렌더링 예시](https://tools.simonwillison.net/svg-render#%3Csvg%20xmlns...)를 보면,  
  **medium 수준**은 균형이 잘 잡혀 있고, high/low 사이에서 의도적인 스타일 차이를 보임  
  이런 비교 덕분에 모델의 **창의적 일관성**을 파악할 수 있음  
  - 하지만 이런 **SVG 출력 벤치마크**는 이제 의미가 줄어든 듯함. RLHF로 특화 학습된 결과일 가능성이 큼  

- 각 회사가 모델 훈련에 쏟는 노력의 1%만이라도 **결제·로그인 경험 개선**에 썼으면 좋겠음  
  Claude는 로그인 시스템이 거의 없고, OpenAI는 **Codex CLI 버그**([#2798](https://github.com/openai/codex/issues/2798))를 고쳐야 함  
  Google은 제품과 결제 구조가 너무 복잡함. **하나의 가격 페이지**로 통합해야 함  
  - 나도 Google 결제 시스템 때문에 포기했음. **Google Payments**가 뭔지도 모르겠고, 계정 인증 오류로 18년 된 회사 계정이 정지됨  
  - Google의 **제품 라인업이 난잡**함. Vertex AI, AI Studio, Maker Studio, Gemini 등 문서가 중복되고 불명확함  
  - Gemini의 **데이터 학습 옵트아웃** 옵션이 사라졌고, 어떤 계정이 학습에 포함되는지도 불투명함  
    Workspace 계정도 안전하지 않음. **ToS를 꼼꼼히 읽어야 함**  
    지금은 OpenAI가 훨씬 **신뢰감 있는 고객 경험**을 제공한다고 느낌  
  - Gemini 3 Pro가 **허가받지 않은 데이터로 후학습**된 게 아닌지 의심됨  
    [이슈 #12121](https://github.com/google-gemini/gemini-cli/issues/12121)에서도 관련 논란이 있음  
  - Claude는 로그인 시 **비밀번호나 패스키 옵션**이 없어서 불편함  

- “신뢰할 수 있는 코딩 파트너가 되기 위한 새 단계”와 “장시간 작업에 최적화된 모델”이라는 문장이 **모순**처럼 들림  
  파트너라면 함께 짧게 반복하며 일해야 하는데, 혼자 장시간 작업하는 건 파트너가 아님  
  - Codex는 장시간 작업에서 **지나치게 독단적**이라, TLS 라이브러리까지 새로 짜는 등 위험한 접근을 함  
  - (Codex 팀원) 우리는 짧은 반복 작업과 장기 위임 작업을 **모두 수행할 수 있는 동료형 모델**을 목표로 함  
    [공식 블로그](https://openai.com/index/introducing-upgrades-to-codex/)의 토큰 그래프를 보면 그 방향을 알 수 있음  
  - Cursor의 **Composer 모델**도 추천함. 속도가 매우 빠르고, 결과가 부족해도 30초 안에 다시 시도할 수 있음  

- Codex의 **plan 모드** 속도에 감탄했음. 코드 품질도 괜찮았음  
  하지만 “npm run build 후 모든 문제 수정”이라고 하자, **eslint 관련 패키지를 설치하며 폭주**함  
  Claude Code는 같은 작업을 1분 내에 끝냈음. Codex는 아직 불안정한 듯함  
  - plan 모드가 뭔지 궁금함  

- Codex는 **백엔드나 데이터 중심 작업**에는 강하지만, 단순한 UI 작업에서는 이상한 결과를 내는 경향이 있음  

- 지난 주말 Claude와 Codex를 함께 써봤는데, **Codex가 TypeScript 물리/그래픽 코드**에서 훨씬 좋은 결과를 냈음  
  수천 줄 중 내가 직접 쓴 건 몇백 줄뿐이었음.  
  이제 새 Codex에게 **이전 Codex의 작업을 리뷰**시켜볼 예정임