GPT-5.2-Codex 공개

▲

GN⁺ 4달전 | parent | ★ favorite | on: GPT-5.2-Codex 공개(openai.com)

Hacker News 의견들

OpenAI 관계자가 본다면, 제발 추론 능력(reasoning) 을 건드리지 말아줬으면 함
Codex는 코드나 수학에서 버그와 불일치를 찾아내는 데 정말 탁월함
Claude Code가 “코드 생성”에 강하다면, Codex/GPT5.x는 문제 탐지에선 압도적임
속도보다 품질이 중요하다고 생각함
- 하루에 몇 번 정도만 이런 정밀한 문제 탐지가 필요하다면, 월 20달러 플랜으로 충분한지, 아니면 200달러 플랜이 필요한지 궁금함
- “품질 우선”이 결국 “비용 상승”을 의미하고, 그 추가 비용을 고객에게 전가하기 어렵다는 게 문제라고 생각함
- 나도 Claude Code를 주로 쓰지만, 코드 리뷰용으로 Codex를 켜두면 흐름 분석과 미묘한 버그 탐지에서 정말 압도적임
- “고급 추론 모드”가 코드의 미세한 버그를 잡아내는 걸 보면 놀라움
- 문제는 Codex가 너무 정확해서, 내가 고쳐야 할 메모리 버그를 계속 지적함. 덕분에 속도가 느려짐
처음엔 Codex를 의심했지만, 지금은 모든 코딩 작업을 Codex로 시작함
완벽하진 않지만, 리팩터링이나 새로운 프로젝트 시작, 낯선 기술 다루기 등에서 놀라운 성과를 보임
특히 미루기(procrastination) 를 줄여줌. 막막한 큰 작업도 Codex에 던지면 좋은 출발점을 만들어줌
- 완전히 공감함. 나도 처음엔 회의적이었지만 Opus 4.5를 써보고 충격받음
  Codex 5.2는 품질이 크게 향상됐고, 이제는 코드 작성 자체를 맡김
  계획 수립과 설계 논의까지 함께 하다 보면, 직접 코드를 쓸 이유가 거의 없어짐
- 위 스레드에서는 Codex가 디버깅에 약하다고 하지만, 다른 스레드에서는 정반대 의견이 있음
  결국 객관적 성능 평가가 어렵다는 점이 흥미로움
- Codex가 미루기를 줄여준다는 말에 공감함
  하지만 피드백 루프 속도가 핵심임. 빌드와 테스트가 빠를수록 에이전트형 코딩 툴의 효율이 높아짐
  Agents.md 같은 명확한 지침이 도움이 됨
- 모델 성능을 비교할 때, 프롬프트나 작업 종류, 모델 버전 등 변수가 너무 많아서 정성적 평가가 어렵다고 느낌
- 나도 Claude Code를 써봤는데, Codex와 비교해본 경험이 궁금함
Claude Code에서 Codex CLI로 옮긴 뒤, 컨테이너 기반 Codex 실행 환경을 구축했음
타이머, 파일 트리거, API 호출, CLI 모드 등 다양한 방식으로 실행 가능함
codex-container에는 300개 이상의 MCP 도구가 포함되어 있음
크롤링, Google 검색, Gmail/GCal/GDrive, Slack, 임베딩, 전사 등 다양한 기능을 지원함
보안상 위험한 작업은 컨테이너 격리로 안전하게 테스트함
gnosis-crawl로 헤드리스 브라우저 크롤링도 가능함
- 좋아 보이지만 PowerShell을 의존성으로 설치해야 한다면 사용하지 않을 듯함
- MCP 도구들이 한꺼번에 작동하는 게 아니라, 라이브러리 형태로 필요한 것만 쓰는 구조인지 궁금함
내 경험상 GPT 모델은 백엔드 개발에 Claude보다 훨씬 적합함
느리지만 논리가 명확하고 유지보수성이 높음
나는 Claude로 계획을 세우고, Codex로 실행한 뒤, 다시 Claude로 코드 리뷰를 하는 패턴을 씀
Codex CLI가 npm과 동시에 homebrew에도 업데이트되면 좋겠음
- GPT‑5는 처음으로 수정 없이 바로 배포 가능한 코드를 만들어줬음
  Claude는 여전히 불필요한 장식(fluff) 이 많고 과도하게 설계함
- 내 경험상 Codex가 Claude보다 코드 리뷰 품질이 훨씬 좋음
  Claude는 사소한 부분을 지적하지만 Codex는 진짜 중요한 문제를 찾아줌
- Opus 4.5 이후로는 Claude도 꽤 개선된 듯함
보안 측면에서 보면, OpenAI 모델들이 공격적(offensive) 작업을 지나치게 제한해서 아쉬움
방어를 위해선 일정 수준의 공격적 시뮬레이션이 필요하다고 생각함
- 나는 GPT‑5를 백엔드로 쓰는 멀티 에이전트 구조에서 공격 테스트를 수행 중인데, 제약 없이 잘 작동함
- ChatGPT와 Codex 모두 공격적 보안 테스트에 잘 협조함
- 기사에 따르면, 더 허용적인(permissive) 모델은 초대 기반으로 제공된다고 함
  신뢰할 수 있는 전문가에게만 접근을 허용하는 건 합리적 접근이라 생각함
- 블랙햇 기능을 강화하는 게 보안에 도움이 되냐는 질문엔, 균형이 필요하다고 봄
- 나도 매일 OpenAI 모델로 공격적 테스트를 하지만, 문제를 겪은 적은 없음
“사이버 보안”을 전면에 내세운 게 흥미로움
이미 보안 분석 자동화는 임계점을 넘었고, 모델 발전보다 반복 작업 자동화가 더 중요하다고 생각함
취약점 분석의 대부분은 자동화 가능한 단순 작업이며, 이를 제거하면 인간은 창의적 분석에 집중할 수 있음
내게 Codex는 항상 기본 모델보다 성능이 떨어짐
CLI에서는 너무 성급하게 코드를 작성하려고 함
단순히 질문했을 뿐인데 파일을 수정하려고 해서 불편함
- “아직 코드를 쓰지 말고 대화만 하자”라고 명시하면 잘 작동함
- 조사와 계획 단계에서는 비‑Codex 모델을 쓰고, 실행 단계에서 Codex를 쓰는 게 효율적임
- 나도 같은 경험을 함. Codex는 기능적으로는 맞지만 코드가 이상하거나 지저분함
- 현재 plan 모드가 개발 중이라 이 문제를 완화할 것으로 기대함
  지금은 .md 파일만 수정하도록 요청하면 어느 정도 제어 가능함
- CodexTheModel은 빠르지만, 나는 품질 우선이라 기본 모델을 선호함
초대 기반으로 보안 연구용 모델 접근을 허용하는 정책은 합리적이라 생각함
“안전성 정렬”이 과도하면 보안 분석 능력이 떨어질 수 있음
KYC 절차만 거친다면, 긍정적인 연구 성과를 내면서도 위험 노출을 줄일 수 있을 것임
“이중 용도(dual-use)” 위험이란, 새로운 공격 기법보다는 실행 장벽을 낮추는 것을 의미함
같은 기능이 방어자에게는 취약점 분석을 돕지만, 공격자에게는 자동화된 공격 도구가 될 수 있음
그래서 배포 통제와 로깅이 중요함
- “보안 취약점 검토” 요청이 유지보수자에게서 오느냐, 공격자에게서 오느냐에 따라 결과가 완전히 달라짐
- 취약점을 찾고 패치할 수 있다는 건, 동시에 악용 가능성도 높다는 뜻임
- 결국 이 모델은 레드팀과 블루팀 모두에게 유용하다는 의미임
- 보안 취약점 탐지 능력이 뛰어나다는 건, 곧 공격 자동화에도 쓸 수 있다는 뜻임
GPT‑5.1을 VSCode의 Codex 플러그인으로 써봤는데, 정말 마법 같은 경험이었음
5.2는 아직 큰 차이를 못 느꼈지만, Cursor나 Kilo Code 수준으로 기능이 확장되면 더 좋아질 것 같음
예전엔 OpenAI가 뒤처졌다고 생각했지만, 5.1은 Gemini보다 훨씬 뛰어남