GPT-5.2-Codex 공개
(openai.com)- 복잡한 현실 세계 개발 작업을 겨냥한 에이전트형 코딩 모델로 Codex 환경에 맞춰 최적화
- 장시간 작업에서 컨텍스트 압축으로 맥락을 유지하며 리팩터링·마이그레이션 같은 큰 변경에 강해짐
- 네이티브 Windows 환경에서 전반 성능 개선과 함께 스크린샷·도면·차트·UI 해석을 돕는 비전 성능 강화
- SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준 성능을 달성
- 방어 목적의 사이버 보안 역량을 크게 끌어올리면서도 오용 가능성을 고려해 유료 사용자 우선 제공과 신뢰 기반 접근을 병행하는 배포 방식 도입
개요
- GPT-5.2-Codex를 새롭게 공개. 복잡한 현실 세계 소프트웨어 엔지니어링 작업을 목표로 설계된 모델
- GPT-5.2를 기반으로 Codex 환경에서 에이전트형 코딩 작업에 최적화
- 컨텍스트 압축을 통해 장시간 진행 작업에서 안정적인 성능을 제공하며, 대규모 코드 변경 작업 역량이 강화
- Windows 환경에서 전반적 성능 개선이 이루어졌고 사이버 보안 역량도 강화
소프트웨어 엔지니어링의 경계를 확장하다
- GPT-5.2의 전문 지식 기반 업무 강점과 GPT-5.1-Codex-Max의 에이전트형 코딩·터미널 활용 성능을 토대로 개발된 모델
- 장기 컨텍스트 이해, 도구 호출 안정성, 정확성 개선, 네이티브 컴팩션을 바탕으로 장시간 코딩 작업에서 신뢰 가능한 파트너로 동작하는게 목표
- 추론 과정에서 토큰 효율성을 유지하는 방향이 함께 포함됨
- 비전 성능 강화를 통해 코딩 세션 중 공유되는 스크린샷, 기술 도면, 차트, UI 화면 해석 정확도를 높임
- GPT-5.1-Codex-Max에서 도입된 기능을 기반으로 네이티브 Windows에서도 에이전트형 코딩을 더 효과적이고 안정적으로 수행
벤치마크 성능
- SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준 성능을 달성
- SWE-Bench Pro는 코드 리포지터리를 제공받아 현실적인 소프트웨어 엔지니어링 작업을 해결하는 패치를 생성하는 평가
- Terminal-Bench 2.0은 실제 터미널 환경에서 AI 에이전트 성능을 테스트하며 코드 컴파일, 모델 훈련, 서버 설정 작업이 포함
현실 세계의 사이버 보안
- 현대 사회의 핵심 시스템과 민감 데이터 보호를 위해 강력한 사이버 보안이 필수임
- 취약점이 오랜 기간 드러나지 않을 수 있으며, 발견·검증·수정 과정이 도구를 갖춘 엔지니어와 독립 보안 연구자 커뮤니티에 크게 의존
- 2025년 12월 11일 React 팀이 React 서버 컴포넌트 기반 앱에 영향을 미치는 보안 취약점 3개를 공개한 사례에서 취약점 자체뿐 아니라 발견 과정이 주목받았음
-
React 취약점 발견 사례
- Stripe 계열사 Privy의 보안 연구원 Andrew MacPherson이 Codex CLI에서 GPT-5.1-Codex-Max를 활용해 React2Shell 분석을 진행
- 로컬 테스트 환경 구성, 공격 표면 분석, 비정상 입력 기반 퍼징 등 표준 보안 워크플로로 Codex를 활용
- React2Shell 재현 과정에서 예상치 못한 동작이 확인되었고, 일주일 만에 이전에 알려지지 않았던 취약점 3개 발견으로 이어짐
- 발견된 취약점이 책임 있는 방식으로 React 팀에 공개됨
- 보안 연구자의 취약점 검증 과정이 얼마나 단축될 수 있는지 보여주는 사례로 Codex 세션 공유도 포함
계속해서 발전하는 사이버 보안 역량
- GPT-5-Codex부터 사이버 보안 역량이 크게 향상되기 시작했고 GPT-5.1-Codex-Max에서 큰 도약, GPT-5.2-Codex에서도 뚜렷한 개선이 확인됨
- 향후 모델도 같은 흐름을 이어갈 것으로 예상하며, 준비성 평가 체계에서 사이버 보안 역량 ‘높음’ 단계 도달 가능성을 전제로 계획과 평가를 진행 중
- GPT-5.2-Codex는 아직 ‘높음’ 단계에는 이르지 않았지만 향후 기준을 넘어설 모델까지 염두에 두고 준비를 이어가고 있음
결론
- GPT-5.2-Codex는 소프트웨어 엔지니어링과 사이버 보안 영역에서 고급 AI의 기여 방식이 확장되는 흐름을 보여줌
- 개발자와 보안 책임자가 복잡하고 장기적인 과제를 해결하도록 지원하는 동시에 책임 있는 보안 연구 도구 역시 한층 강화
Hacker News 의견들
-
OpenAI 관계자가 본다면, 제발 추론 능력(reasoning) 을 건드리지 말아줬으면 함
Codex는 코드나 수학에서 버그와 불일치를 찾아내는 데 정말 탁월함
Claude Code가 “코드 생성”에 강하다면, Codex/GPT5.x는 문제 탐지에선 압도적임
속도보다 품질이 중요하다고 생각함- 하루에 몇 번 정도만 이런 정밀한 문제 탐지가 필요하다면, 월 20달러 플랜으로 충분한지, 아니면 200달러 플랜이 필요한지 궁금함
- “품질 우선”이 결국 “비용 상승”을 의미하고, 그 추가 비용을 고객에게 전가하기 어렵다는 게 문제라고 생각함
- 나도 Claude Code를 주로 쓰지만, 코드 리뷰용으로 Codex를 켜두면 흐름 분석과 미묘한 버그 탐지에서 정말 압도적임
- “고급 추론 모드”가 코드의 미세한 버그를 잡아내는 걸 보면 놀라움
- 문제는 Codex가 너무 정확해서, 내가 고쳐야 할 메모리 버그를 계속 지적함. 덕분에 속도가 느려짐
-
처음엔 Codex를 의심했지만, 지금은 모든 코딩 작업을 Codex로 시작함
완벽하진 않지만, 리팩터링이나 새로운 프로젝트 시작, 낯선 기술 다루기 등에서 놀라운 성과를 보임
특히 미루기(procrastination) 를 줄여줌. 막막한 큰 작업도 Codex에 던지면 좋은 출발점을 만들어줌- 완전히 공감함. 나도 처음엔 회의적이었지만 Opus 4.5를 써보고 충격받음
Codex 5.2는 품질이 크게 향상됐고, 이제는 코드 작성 자체를 맡김
계획 수립과 설계 논의까지 함께 하다 보면, 직접 코드를 쓸 이유가 거의 없어짐 - 위 스레드에서는 Codex가 디버깅에 약하다고 하지만, 다른 스레드에서는 정반대 의견이 있음
결국 객관적 성능 평가가 어렵다는 점이 흥미로움 - Codex가 미루기를 줄여준다는 말에 공감함
하지만 피드백 루프 속도가 핵심임. 빌드와 테스트가 빠를수록 에이전트형 코딩 툴의 효율이 높아짐
Agents.md 같은 명확한 지침이 도움이 됨 - 모델 성능을 비교할 때, 프롬프트나 작업 종류, 모델 버전 등 변수가 너무 많아서 정성적 평가가 어렵다고 느낌
- 나도 Claude Code를 써봤는데, Codex와 비교해본 경험이 궁금함
- 완전히 공감함. 나도 처음엔 회의적이었지만 Opus 4.5를 써보고 충격받음
-
Claude Code에서 Codex CLI로 옮긴 뒤, 컨테이너 기반 Codex 실행 환경을 구축했음
타이머, 파일 트리거, API 호출, CLI 모드 등 다양한 방식으로 실행 가능함
codex-container에는 300개 이상의 MCP 도구가 포함되어 있음
크롤링, Google 검색, Gmail/GCal/GDrive, Slack, 임베딩, 전사 등 다양한 기능을 지원함
보안상 위험한 작업은 컨테이너 격리로 안전하게 테스트함
gnosis-crawl로 헤드리스 브라우저 크롤링도 가능함- 좋아 보이지만 PowerShell을 의존성으로 설치해야 한다면 사용하지 않을 듯함
- MCP 도구들이 한꺼번에 작동하는 게 아니라, 라이브러리 형태로 필요한 것만 쓰는 구조인지 궁금함
-
내 경험상 GPT 모델은 백엔드 개발에 Claude보다 훨씬 적합함
느리지만 논리가 명확하고 유지보수성이 높음
나는 Claude로 계획을 세우고, Codex로 실행한 뒤, 다시 Claude로 코드 리뷰를 하는 패턴을 씀
Codex CLI가 npm과 동시에 homebrew에도 업데이트되면 좋겠음- GPT‑5는 처음으로 수정 없이 바로 배포 가능한 코드를 만들어줬음
Claude는 여전히 불필요한 장식(fluff) 이 많고 과도하게 설계함 - 내 경험상 Codex가 Claude보다 코드 리뷰 품질이 훨씬 좋음
Claude는 사소한 부분을 지적하지만 Codex는 진짜 중요한 문제를 찾아줌 - Opus 4.5 이후로는 Claude도 꽤 개선된 듯함
- GPT‑5는 처음으로 수정 없이 바로 배포 가능한 코드를 만들어줬음
-
보안 측면에서 보면, OpenAI 모델들이 공격적(offensive) 작업을 지나치게 제한해서 아쉬움
방어를 위해선 일정 수준의 공격적 시뮬레이션이 필요하다고 생각함- 나는 GPT‑5를 백엔드로 쓰는 멀티 에이전트 구조에서 공격 테스트를 수행 중인데, 제약 없이 잘 작동함
- ChatGPT와 Codex 모두 공격적 보안 테스트에 잘 협조함
- 기사에 따르면, 더 허용적인(permissive) 모델은 초대 기반으로 제공된다고 함
신뢰할 수 있는 전문가에게만 접근을 허용하는 건 합리적 접근이라 생각함 - 블랙햇 기능을 강화하는 게 보안에 도움이 되냐는 질문엔, 균형이 필요하다고 봄
- 나도 매일 OpenAI 모델로 공격적 테스트를 하지만, 문제를 겪은 적은 없음
-
“사이버 보안”을 전면에 내세운 게 흥미로움
이미 보안 분석 자동화는 임계점을 넘었고, 모델 발전보다 반복 작업 자동화가 더 중요하다고 생각함
취약점 분석의 대부분은 자동화 가능한 단순 작업이며, 이를 제거하면 인간은 창의적 분석에 집중할 수 있음 -
내게 Codex는 항상 기본 모델보다 성능이 떨어짐
CLI에서는 너무 성급하게 코드를 작성하려고 함
단순히 질문했을 뿐인데 파일을 수정하려고 해서 불편함- “아직 코드를 쓰지 말고 대화만 하자”라고 명시하면 잘 작동함
- 조사와 계획 단계에서는 비‑Codex 모델을 쓰고, 실행 단계에서 Codex를 쓰는 게 효율적임
- 나도 같은 경험을 함. Codex는 기능적으로는 맞지만 코드가 이상하거나 지저분함
- 현재 plan 모드가 개발 중이라 이 문제를 완화할 것으로 기대함
지금은 .md 파일만 수정하도록 요청하면 어느 정도 제어 가능함 - CodexTheModel은 빠르지만, 나는 품질 우선이라 기본 모델을 선호함
-
초대 기반으로 보안 연구용 모델 접근을 허용하는 정책은 합리적이라 생각함
“안전성 정렬”이 과도하면 보안 분석 능력이 떨어질 수 있음
KYC 절차만 거친다면, 긍정적인 연구 성과를 내면서도 위험 노출을 줄일 수 있을 것임 -
“이중 용도(dual-use)” 위험이란, 새로운 공격 기법보다는 실행 장벽을 낮추는 것을 의미함
같은 기능이 방어자에게는 취약점 분석을 돕지만, 공격자에게는 자동화된 공격 도구가 될 수 있음
그래서 배포 통제와 로깅이 중요함- “보안 취약점 검토” 요청이 유지보수자에게서 오느냐, 공격자에게서 오느냐에 따라 결과가 완전히 달라짐
- 취약점을 찾고 패치할 수 있다는 건, 동시에 악용 가능성도 높다는 뜻임
- 결국 이 모델은 레드팀과 블루팀 모두에게 유용하다는 의미임
- 보안 취약점 탐지 능력이 뛰어나다는 건, 곧 공격 자동화에도 쓸 수 있다는 뜻임
-
GPT‑5.1을 VSCode의 Codex 플러그인으로 써봤는데, 정말 마법 같은 경험이었음
5.2는 아직 큰 차이를 못 느꼈지만, Cursor나 Kilo Code 수준으로 기능이 확장되면 더 좋아질 것 같음
예전엔 OpenAI가 뒤처졌다고 생각했지만, 5.1은 Gemini보다 훨씬 뛰어남