GPT-5.2-Codex 공개

(openai.com)

7P by GN⁺ 1달전 | ★ favorite | 댓글 1개

복잡한 현실 세계 개발 작업을 겨냥한 에이전트형 코딩 모델로 Codex 환경에 맞춰 최적화
장시간 작업에서 컨텍스트 압축으로 맥락을 유지하며 리팩터링·마이그레이션 같은 큰 변경에 강해짐
네이티브 Windows 환경에서 전반 성능 개선과 함께 스크린샷·도면·차트·UI 해석을 돕는 비전 성능 강화
SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준 성능을 달성
방어 목적의 사이버 보안 역량을 크게 끌어올리면서도 오용 가능성을 고려해 유료 사용자 우선 제공과 신뢰 기반 접근을 병행하는 배포 방식 도입

개요

GPT-5.2-Codex를 새롭게 공개. 복잡한 현실 세계 소프트웨어 엔지니어링 작업을 목표로 설계된 모델
GPT-5.2를 기반으로 Codex 환경에서 에이전트형 코딩 작업에 최적화
컨텍스트 압축을 통해 장시간 진행 작업에서 안정적인 성능을 제공하며, 대규모 코드 변경 작업 역량이 강화
Windows 환경에서 전반적 성능 개선이 이루어졌고 사이버 보안 역량도 강화

소프트웨어 엔지니어링의 경계를 확장하다

GPT-5.2의 전문 지식 기반 업무 강점과 GPT-5.1-Codex-Max의 에이전트형 코딩·터미널 활용 성능을 토대로 개발된 모델
장기 컨텍스트 이해, 도구 호출 안정성, 정확성 개선, 네이티브 컴팩션을 바탕으로 장시간 코딩 작업에서 신뢰 가능한 파트너로 동작하는게 목표
추론 과정에서 토큰 효율성을 유지하는 방향이 함께 포함됨
비전 성능 강화를 통해 코딩 세션 중 공유되는 스크린샷, 기술 도면, 차트, UI 화면 해석 정확도를 높임
GPT-5.1-Codex-Max에서 도입된 기능을 기반으로 네이티브 Windows에서도 에이전트형 코딩을 더 효과적이고 안정적으로 수행

벤치마크 성능

SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준 성능을 달성
- SWE-Bench Pro는 코드 리포지터리를 제공받아 현실적인 소프트웨어 엔지니어링 작업을 해결하는 패치를 생성하는 평가
- Terminal-Bench 2.0은 실제 터미널 환경에서 AI 에이전트 성능을 테스트하며 코드 컴파일, 모델 훈련, 서버 설정 작업이 포함

현실 세계의 사이버 보안

현대 사회의 핵심 시스템과 민감 데이터 보호를 위해 강력한 사이버 보안이 필수임
취약점이 오랜 기간 드러나지 않을 수 있으며, 발견·검증·수정 과정이 도구를 갖춘 엔지니어와 독립 보안 연구자 커뮤니티에 크게 의존
2025년 12월 11일 React 팀이 React 서버 컴포넌트 기반 앱에 영향을 미치는 보안 취약점 3개를 공개한 사례에서 취약점 자체뿐 아니라 발견 과정이 주목받았음
React 취약점 발견 사례
- Stripe 계열사 Privy의 보안 연구원 Andrew MacPherson이 Codex CLI에서 GPT-5.1-Codex-Max를 활용해 React2Shell 분석을 진행
- 로컬 테스트 환경 구성, 공격 표면 분석, 비정상 입력 기반 퍼징 등 표준 보안 워크플로로 Codex를 활용
- React2Shell 재현 과정에서 예상치 못한 동작이 확인되었고, 일주일 만에 이전에 알려지지 않았던 취약점 3개 발견으로 이어짐
- 발견된 취약점이 책임 있는 방식으로 React 팀에 공개됨
- 보안 연구자의 취약점 검증 과정이 얼마나 단축될 수 있는지 보여주는 사례로 Codex 세션 공유도 포함

계속해서 발전하는 사이버 보안 역량

GPT-5-Codex부터 사이버 보안 역량이 크게 향상되기 시작했고 GPT-5.1-Codex-Max에서 큰 도약, GPT-5.2-Codex에서도 뚜렷한 개선이 확인됨
향후 모델도 같은 흐름을 이어갈 것으로 예상하며, 준비성 평가 체계에서 사이버 보안 역량 ‘높음’ 단계 도달 가능성을 전제로 계획과 평가를 진행 중
GPT-5.2-Codex는 아직 ‘높음’ 단계에는 이르지 않았지만 향후 기준을 넘어설 모델까지 염두에 두고 준비를 이어가고 있음

결론

GPT-5.2-Codex는 소프트웨어 엔지니어링과 사이버 보안 영역에서 고급 AI의 기여 방식이 확장되는 흐름을 보여줌
개발자와 보안 책임자가 복잡하고 장기적인 과제를 해결하도록 지원하는 동시에 책임 있는 보안 연구 도구 역시 한층 강화

▲

GN⁺ 1달전 [-]

Hacker News 의견들

OpenAI 관계자가 본다면, 제발 추론 능력(reasoning) 을 건드리지 말아줬으면 함
Codex는 코드나 수학에서 버그와 불일치를 찾아내는 데 정말 탁월함
Claude Code가 “코드 생성”에 강하다면, Codex/GPT5.x는 문제 탐지에선 압도적임
속도보다 품질이 중요하다고 생각함
- 하루에 몇 번 정도만 이런 정밀한 문제 탐지가 필요하다면, 월 20달러 플랜으로 충분한지, 아니면 200달러 플랜이 필요한지 궁금함
- “품질 우선”이 결국 “비용 상승”을 의미하고, 그 추가 비용을 고객에게 전가하기 어렵다는 게 문제라고 생각함
- 나도 Claude Code를 주로 쓰지만, 코드 리뷰용으로 Codex를 켜두면 흐름 분석과 미묘한 버그 탐지에서 정말 압도적임
- “고급 추론 모드”가 코드의 미세한 버그를 잡아내는 걸 보면 놀라움
- 문제는 Codex가 너무 정확해서, 내가 고쳐야 할 메모리 버그를 계속 지적함. 덕분에 속도가 느려짐
처음엔 Codex를 의심했지만, 지금은 모든 코딩 작업을 Codex로 시작함
완벽하진 않지만, 리팩터링이나 새로운 프로젝트 시작, 낯선 기술 다루기 등에서 놀라운 성과를 보임
특히 미루기(procrastination) 를 줄여줌. 막막한 큰 작업도 Codex에 던지면 좋은 출발점을 만들어줌
- 완전히 공감함. 나도 처음엔 회의적이었지만 Opus 4.5를 써보고 충격받음
  Codex 5.2는 품질이 크게 향상됐고, 이제는 코드 작성 자체를 맡김
  계획 수립과 설계 논의까지 함께 하다 보면, 직접 코드를 쓸 이유가 거의 없어짐
- 위 스레드에서는 Codex가 디버깅에 약하다고 하지만, 다른 스레드에서는 정반대 의견이 있음
  결국 객관적 성능 평가가 어렵다는 점이 흥미로움
- Codex가 미루기를 줄여준다는 말에 공감함
  하지만 피드백 루프 속도가 핵심임. 빌드와 테스트가 빠를수록 에이전트형 코딩 툴의 효율이 높아짐
  Agents.md 같은 명확한 지침이 도움이 됨
- 모델 성능을 비교할 때, 프롬프트나 작업 종류, 모델 버전 등 변수가 너무 많아서 정성적 평가가 어렵다고 느낌
- 나도 Claude Code를 써봤는데, Codex와 비교해본 경험이 궁금함
Claude Code에서 Codex CLI로 옮긴 뒤, 컨테이너 기반 Codex 실행 환경을 구축했음
타이머, 파일 트리거, API 호출, CLI 모드 등 다양한 방식으로 실행 가능함
codex-container에는 300개 이상의 MCP 도구가 포함되어 있음
크롤링, Google 검색, Gmail/GCal/GDrive, Slack, 임베딩, 전사 등 다양한 기능을 지원함
보안상 위험한 작업은 컨테이너 격리로 안전하게 테스트함
gnosis-crawl로 헤드리스 브라우저 크롤링도 가능함
- 좋아 보이지만 PowerShell을 의존성으로 설치해야 한다면 사용하지 않을 듯함
- MCP 도구들이 한꺼번에 작동하는 게 아니라, 라이브러리 형태로 필요한 것만 쓰는 구조인지 궁금함
내 경험상 GPT 모델은 백엔드 개발에 Claude보다 훨씬 적합함
느리지만 논리가 명확하고 유지보수성이 높음
나는 Claude로 계획을 세우고, Codex로 실행한 뒤, 다시 Claude로 코드 리뷰를 하는 패턴을 씀
Codex CLI가 npm과 동시에 homebrew에도 업데이트되면 좋겠음
- GPT‑5는 처음으로 수정 없이 바로 배포 가능한 코드를 만들어줬음
  Claude는 여전히 불필요한 장식(fluff) 이 많고 과도하게 설계함
- 내 경험상 Codex가 Claude보다 코드 리뷰 품질이 훨씬 좋음
  Claude는 사소한 부분을 지적하지만 Codex는 진짜 중요한 문제를 찾아줌
- Opus 4.5 이후로는 Claude도 꽤 개선된 듯함
보안 측면에서 보면, OpenAI 모델들이 공격적(offensive) 작업을 지나치게 제한해서 아쉬움
방어를 위해선 일정 수준의 공격적 시뮬레이션이 필요하다고 생각함
- 나는 GPT‑5를 백엔드로 쓰는 멀티 에이전트 구조에서 공격 테스트를 수행 중인데, 제약 없이 잘 작동함
- ChatGPT와 Codex 모두 공격적 보안 테스트에 잘 협조함
- 기사에 따르면, 더 허용적인(permissive) 모델은 초대 기반으로 제공된다고 함
  신뢰할 수 있는 전문가에게만 접근을 허용하는 건 합리적 접근이라 생각함
- 블랙햇 기능을 강화하는 게 보안에 도움이 되냐는 질문엔, 균형이 필요하다고 봄
- 나도 매일 OpenAI 모델로 공격적 테스트를 하지만, 문제를 겪은 적은 없음
“사이버 보안”을 전면에 내세운 게 흥미로움
이미 보안 분석 자동화는 임계점을 넘었고, 모델 발전보다 반복 작업 자동화가 더 중요하다고 생각함
취약점 분석의 대부분은 자동화 가능한 단순 작업이며, 이를 제거하면 인간은 창의적 분석에 집중할 수 있음
내게 Codex는 항상 기본 모델보다 성능이 떨어짐
CLI에서는 너무 성급하게 코드를 작성하려고 함
단순히 질문했을 뿐인데 파일을 수정하려고 해서 불편함
- “아직 코드를 쓰지 말고 대화만 하자”라고 명시하면 잘 작동함
- 조사와 계획 단계에서는 비‑Codex 모델을 쓰고, 실행 단계에서 Codex를 쓰는 게 효율적임
- 나도 같은 경험을 함. Codex는 기능적으로는 맞지만 코드가 이상하거나 지저분함
- 현재 plan 모드가 개발 중이라 이 문제를 완화할 것으로 기대함
  지금은 .md 파일만 수정하도록 요청하면 어느 정도 제어 가능함
- CodexTheModel은 빠르지만, 나는 품질 우선이라 기본 모델을 선호함
초대 기반으로 보안 연구용 모델 접근을 허용하는 정책은 합리적이라 생각함
“안전성 정렬”이 과도하면 보안 분석 능력이 떨어질 수 있음
KYC 절차만 거친다면, 긍정적인 연구 성과를 내면서도 위험 노출을 줄일 수 있을 것임
“이중 용도(dual-use)” 위험이란, 새로운 공격 기법보다는 실행 장벽을 낮추는 것을 의미함
같은 기능이 방어자에게는 취약점 분석을 돕지만, 공격자에게는 자동화된 공격 도구가 될 수 있음
그래서 배포 통제와 로깅이 중요함
- “보안 취약점 검토” 요청이 유지보수자에게서 오느냐, 공격자에게서 오느냐에 따라 결과가 완전히 달라짐
- 취약점을 찾고 패치할 수 있다는 건, 동시에 악용 가능성도 높다는 뜻임
- 결국 이 모델은 레드팀과 블루팀 모두에게 유용하다는 의미임
- 보안 취약점 탐지 능력이 뛰어나다는 건, 곧 공격 자동화에도 쓸 수 있다는 뜻임
GPT‑5.1을 VSCode의 Codex 플러그인으로 써봤는데, 정말 마법 같은 경험이었음
5.2는 아직 큰 차이를 못 느꼈지만, Cursor나 Kilo Code 수준으로 기능이 확장되면 더 좋아질 것 같음
예전엔 OpenAI가 뒤처졌다고 생각했지만, 5.1은 Gemini보다 훨씬 뛰어남

답변달기

GPT-5.2-Codex 공개

개요

소프트웨어 엔지니어링의 경계를 확장하다

벤치마크 성능

현실 세계의 사이버 보안

React 취약점 발견 사례

계속해서 발전하는 사이버 보안 역량

결론

Hacker News 의견들